K-Meansクラスター数の指定 / Modeler
クラスター分析は、類似する特徴を持つレコードの分類を目的として、顧客セグメントの識別やアンケート回答者グループの作成など広く活用されている分析手法です。中でも、簡単なアルゴリズムで大量データでの適用も可能なK-Meansクラスター分析は、非常にポピュラーな方法で多くのデータ分析パッケージに搭載されています。ただし、K-Meansクラスターは、いくつのクラスターに分類するか、そのクラスター数を明示的に指定する必要があります。一般的には、クラスター数が分析実行前に明確に決まっていることは稀であり、分析結果を評価・吟味しながら最適なクラスター数を探る必要があり、探索的に分析を進めることが多い分析です。
IBM SPSS Modelerには、クラスター分析のアルゴリズムの1つとしてK-Meansノードが含まれており、分析に使用するフィールドの指定を行えば比較的簡単にクラスターを識別することができますが、その際のクラスター数は5個がデフォルト設定になっています。したがって、ノードの設定を確認せずにK-Meansクラスターを実行しても、必ず5個のクラスターにしか分けてくれません。そこで、実際にはクラスター数を変えながら、さまざまなパターンを試行することになります。
ただし、K-Meansノードで一度に指定できるクラスター数は1パターンだけです。複数パターンのクラスター数で実行したい場合は、自動クラスタリングノードを用いると効率的です。
自動クラスタリングノードにおけるK-eansのクラスター数の指定
(1)エキスパートタブで「K-means」の「モデルパラメーター」を選択します。
(2)「指定…」を選択します。
(3)「クラスター数」の「オプション」を選択します。
クラスター数を指定するエディターが表示されるので、試行したいクラスターの数を指定します。クラスター数として「4」「6」「7」「8」を追加してみます。
(4)「クラスター数」に「4」を指定して追加ボタンをクリックします。
(5)「クラスター数」に「6」を指定して追加ボタンをクリックします。
(6)「クラスター数」に「7」を指定して追加ボタンをクリックします。
(7)「クラスター数」に「8」を指定して追加ボタンをクリックします。
(8)「OK」ボタンをクリックします。
以上の設定で、クラスター数4~8個でそれぞれ分析を実行することになります。
(9)「OK」ボタンをクリックします。
K-meansによって作成されるモデル数は5個です。この例では、KohonenとTwo-Stepのモデルタイプはオフにしています。デフォルトでは、結果について良いと判断されるものから上位5個が選択されます(この設定はモデルタブの「保存するモデル数」で変更可能です)。
モデル作成の結果、全体像(レコードが所属するクラスター中心への距離と最近隣クラスター中心との距離の情報に基づいて計算されます)と呼ばれる指標に基づき、クラスター数6個の場合がレコードをもっとも明確に分類できることが分かりました。試行したクラスター数の中で2番目に良いのは5個の場合、3番目に良いのは4個に分類する場合のようです。
クラスター分析は、対象フィールド(従属変数/目的変数)を設定しない教師なし学習の方法です。したがって、分析の結果が正しいかどうかは、データをうまく説明できる特徴的なクラスターに分かれているか、マーケティングの施策に落とし込めるクラスターになっているかなどの観点から評価することになりますので、それぞれのクラスタープロフィールを評価することが重要です。(クラスタープロフィールは、モデルナゲットをダブルクリックすると表示されます)
以上のように、自動クラスタリングノードを活用することで、K-Meansクラスターの数を数パターン同時に実行することができ、より効率的なモデル作成を実現することができます。
目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。
■ SPSSデータマイニング基礎講座(オンラインコース)
IBM SPSS Modelerを利用したデータマイニングを基礎から学び予測モデル作成までを習得できる
https://www.stats-guild.com/spss-datamining-online