option-Decision Trees
IBM SPSS Decision Trees
IBM SPSS Decision Treesは、基本ソフト Baseに追加するオプション製品です。Decision Tree は、ツリー・ベースの分類モデルを作成します。ケースをグループに分類したり、独立変数に基づいて従属変数の値を予測します。購買や契約データ、臨床データなど多くの分野で活用されています。
IBM SPSS Decision Trees オプションの主要な機能
ディシジョンツリー(決定木)図の作成
多数の独立変数に基づいて従属変数を分類するツリー図が作成されます。視覚的な条件分岐が示され、どのようなルールによって購買や疾病に至りやすいかを分析することができます。分析手法として、CHAID、Exhaustive CHAID、CRT、QUEST の4つが利用可能です。
ツリー・エディター
ツリー図は、拡大・縮小、方向、フォントや色の変更などのグラフィカルな編集に対応します。大規模データや多数の独立変数を用いることによって、ツリー図が非常に大きくなり一画面に収まらない可能性がある場合、ツリーマップウィンドウを使用することで、ツリー図の全体像を確認しながら解釈の作業を進めることが可能です。
CHAID
CHAID(Chi-squared Automatic Interaction Detection)は、カイ2乗検定を使用してデシジョン・ツリーを構築する分類方法で、多分岐の分類ツリーを構成します。有意な独立変数に基づいて、従属変数をツリーに分割し、分類ルールと予測ルールを構成します。
CRT
CRT(Classification and Regression Tree)は、不純度に基づく手法で2分岐の分類ツリーを構成します。不純度は1つのカテゴリに集中する度合いを測る統計量で、すべての同じ値を持つターミナル・ノードは不純度が0になり、それ以上の分割は不要です。また、量的独立変数の分割点を探索する目的でも利用できます。
QUEST
QUEST(Quick Unbiased Efficient Statistical Tree)は、仮説検定を用いた手法で、2分岐の分類ツリーを構成します。この手法は、2値に分類するために、判別分析やK-Meansクラスター分析が用いられます。従属変数は、質的データに限定されます。
誤分類コスト
カテゴリーの従属変数では、誤分類コストにより、分類の誤りに重みを設定することができます。例えば、心臓疾患のリスクが高い人を低リスクと誤分類するコストは、低リスクの人を高リスクと誤分類するコストよりもずっと高いはずです。誤分類コストによって、高リスクのケースが低リスクと予測される可能性を下げることができ、高リスクに該当するケースの予測精度を改善します。
選択規則とスコアリング規則
選択規則や分類/予測規則をIBM SPSS Statistics のシンタックス、SQL、プレーンテキストの形式で生成できます。これらの規則は、外部ファイルに保存することができ、新しいケースの予測やスコアリングに活用するために用いられます。