分析支援サービス
IBM SPSSによるデータ分析、情報活用

K-Meansクラスター数の指定

K-Meansクラスター数の指定

自動クラスタリングで複数パターンを実行して結果を比較
SPSS Modeler
クラスター分析は、類似する特徴を持つレコードの分類を目的として、顧客セグメントの識別や似ている商品のグループ作成など広く活用されている分析手法です。中でも、簡単なアルゴリズムで大量データでの適用も可能なK-Meansクラスター分析は、代表的な方法で多くのデータ分析パッケージに搭載されており、SPSS Modelerでは、アルゴリズムの1つとしてセグメンテーションのノードとして含まれています。
使用するフィールドの指定を行えば比較的簡単にクラスターを識別することができますが、その際のクラスター数は5個がデフォルト設定です。したがって、ノードの設定を確認せずにK-Meansクラスターを実行しても常に5個のクラスターに分かれます。実際にはクラスター数を変えながら、さまざまなパターンを試行することになりますが、自動クラスタリングの機能を使うと複数パターンを一度に試行することができます。

1K-eansのクラスター数の指定

自動クラスタリングノード

IBM SPSS ModelerのK-Meansノードで一度に指定できるクラスター数は1パターンだけで、デフォルトでは5個です。複数パターンのクラスター数で実行したい場合は、自動クラスタリングノードを用いると効率的です。

k-meansのパラメータ設定

  1. ストリームに「自動クラスタリング」ノードを追加します。
  2. エキスパートタブで「K-means」の「モデルパラメータ」を選択します
  3. 「指定…」を選択します
SPSS Modelerのテーブル結果

次に、クラスター数の設定を変更します。

ノードの生成

  1. 「クラスター数」の「オプション」を選択します
  2. 「指定」を選択します
SPSS Modelerのノードの生成

クラスター数を指定するエディターが表示されるので、試行したいクラスターの数を指定します。クラスター数として「4」「6」「7」「8」を追加してみます。

SPSS Modelerのノードの生成

複数パターンのクラスター数の指定

  1. 「クラスター数」に「4」を指定して、追加ボタンをクリックします
  2. 「クラスター数」に「6」を指定して、追加ボタンをクリックします
  3. 「クラスター数」に「7」を指定して、追加ボタンをクリックします
  4. 「クラスター数」に「8」を指定して、追加ボタンをクリックします
  5. 「OK」ボタンをクリックします

以上の設定で、クラスター数4~8個でそれぞれ分析を実行することになります。

SPSS Modelerのノードの生成

この設定でK-meansによって作成されるモデル数は全部で5個になります。この例では、KohonenとTwo-Stepのモデルタイプはオフにしています。デフォルトでは、結果について良いと判断されるものから上位5個が選択されます(この設定はモデルタブの「保存するモデル数」で変更可能です)。

SPSS Modelerのノードの生成

モデル作成の結果、全体像(レコードが所属するクラスター中心への距離と最近隣クラスター中心との距離の情報に基づいて計算されるシルエット)と呼ばれる指標に基づき、クラスター数5個の場合がレコードをもっとも明確に分類できることが分かりました。試行したクラスター数の中で2番目に良いのは6個の場合、3番目に良いのは8個に分類する場合のようです。

SPSS Modelerのノードの生成
クラスター分析は、対象フィールド(従属変数/目的変数)を設定しない教師なし学習の方法です。したがって、分析の結果が正しいかどうかは、データをうまく解釈・説明できる特徴的なクラスターか、施策に落とし込めるクラスターになっているかなどの観点から評価することになりますので、それぞれのプロフィールを評価することが重要です。(クラスタープロフィールは、モデルナゲットをダブルクリックすると表示されます)
以上のように、自動クラスタリングノードを活用することで、K-Meansクラスターの数を数パターン同時に実行することができ、より効率的なモデル作成を実現することができます。 目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。

参考文献

  1. ModelerUsersGuide.pdf
  2. ModelerSPOnodes.pdf

トレーニング

SPSS Q&Aサービス

無料体験
PAGE TOP ↑