分析支援サービス
IBM SPSSによるデータ分析、情報活用

CHAID (CHi-squared Automatic Interaction Detector)

ディシジョンツリーの手法の1つ。カイ2乗検定に基づく交互作用 Interaction の自動検出アルゴリズムです。購買予測や解約分析、リスク分析などに利用できます。医療統計でも適用可能ですが、数十程度のサンプルサイズではデータセットをセグメントに分割することができない場合が多く、少なくとも100を超えるサンプルサイズを必要とします。統計解析やデータマイニングの手法としてよく利用されます。基本的にはカテゴリ型の従属変数を対象としますが、スケール(連続型)型の従属変数を対象とすることもでき、その場合の代表値は平均値となりF検定(分散分析)に基づく方法になります。

この例では、契約更新の有無(従属変数/目的変数/アウトカム)を性別や年代の要因によって分割しています。男性より女性のほうが解約しやすく、女性のなかでも29歳以下と32歳より高い年齢の解約率が高いようです。カテゴリ変数の分割にはカイ2乗統計量が用いられます。変数の選別に多くの仮説検定が実行されることになるため、SPSSでは検定の多重性の問題への対処としてBonferroni調整がデフォルトで行われます(上図の調整P値がBonferroni調整P値です)。また、分岐のルールはモデル検証 validation の上、予測ルールとして使用できます。

また、SPSS Modelerにはインタラクティブツリーの機能が含まれており、分岐に使用する変数を自由に指定したり、カテゴリ変数の結合や連続変数の分割点などを柔軟に指定したカスタマイズツリーを構築することもでき、ビジネスルールや分析上の仮説などをツリー図に反映させることも可能です。

■ 関連するデータ分析手法 クロス集計表 ロジスティック回帰分析 ■ データ分析ソフトウェア IBM SPSS Statistics(Decision Trees オプション) IBM SPSS Modeler(Professional) ■ オンラインコース IBM SPSS Statisticsによる統計解析 https://www.stats-guild.com/spss-e-learning/courselist
PAGE TOP ↑