Classification and Regression Tree

C&R Tree

分類問題や回帰問題に使用される決定木アルゴリズムの一種です。CRT手法は、特に二分木（binary tree）の構造を用いてデータを繰り返し分割し、結果を導き出すために用いられます。

分析手法の種類
予測する
要因を探る
比較する
分類する
集計する
可視化する

Application

不純度に基づく決定木の手法

C&R Tree（CRT）は、目的変数に対して多数の要因でデータセットをセグメントに分岐し、ツリー図を構築する分析手法です。変数の選択や分岐の基準に不純度を用いており、CHAIDと並びよく利用されるディシジョンツリーの手法ですが、分岐は常に2つになるのが特徴です。目的変数には、カテゴリ変数（比率）とスケール変数（平均値）の両方が利用できます。

目的変数がカテゴリカルデータの場合、パーセンテージを代表値として観測データを分類するためのルールを作ります。各分割点で最適な変数を選び、データを最も純粋なグループに分割します。分割の基準は不純度（Gini Impurity）がよく使われます。不純度はデータがどれだけ混在しているかを示す指標で、0に近いほど1つのカテゴリに偏っていることを示します。

目的変数が連続データの場合、平均値を代表値としてCRTは回帰木を作成します。各分割点で、分割前後のグループ間の分散の減少量（分散減少率）を基に最適な分割を決定します。

決定木は、分割を続けるとデータに完全に適合し、過学習（overfitting）が発生する可能性があります。これを防ぐために、木を剪定（pruning）して、モデルの複雑さをコントロールします。

Software

ソフトウェア

SPSSでは、Decision Treesオプションで決定木分析の各手法に対応します。なお、SPSS Modelerの方が機能が充実しており予測に使用する場合に向いています。Rでは、rpartパッケージを使用します。Pythonでは、sklearnのDecisionTreeClassifierやDecisionTreeRegressorを使用してCRTを実装できます。

参考文献

Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth International Group.
滋賀大学データサイエンス学部(2024),この1冊ですべてわかるデータサイエンスの基本,日本実業出版社
IBM_SPSS_Decision_Trees.pdf