C&R Tree (Classification and Regression Tree)
目的変数に対して多数の要因でデータセットをセグメントに分岐し、ツリー図を構築する分析手法です。変数の選択や分岐の基準に不純度を用いており、CHAIDと並びよく利用されるディシジョンツリーの手法ですが、分岐は常に2つになるのが特徴です。
目的変数には、カテゴリ変数(比率)とスケール変数(平均値)の両方が利用できます。カテゴリ変数の場合の不純度はGini係数を利用することができ、スケール変数の場合の不純度は分散になります。
目的変数には、カテゴリ変数(比率)とスケール変数(平均値)の両方が利用できます。カテゴリ変数の場合の不純度はGini係数を利用することができ、スケール変数の場合の不純度は分散になります。
常に2分岐になるためツリーは深くなりやすく、ツリーの成長停止規則を定義しないと、不純度が0になるまで分岐されオーバーフィットが起こるため、剪定(枝刈り)が必要です。目的変数をスケール変数で分割する際のカットオフ値の探索にも応用されます。
■ 関連する分析手法
CHAID
■ IBM SPSS製品
IBM SPSS Decision Trees
■ 支援サービス
SPSSデータマイニング基礎講座