分析支援サービス
IBM SPSSを利用したデータ分析、情報活用支援

プライバシーマーク

K-Meansクラスター数の指定 / Modeler

公開日:  最終更新日:2015/10/16   Modeler SPSS TIPS 

クラスター分析は、類似する特徴を持つレコードの分類を目的として、顧客セグメントの識別やアンケート回答者グループの作成など広く活用されている分析手法です。中でも、簡単なアルゴリズムで大量データでの適用も可能なK-Meansクラスター分析は、非常にポピュラーな方法で多くのデータ分析パッケージに搭載されています。ただし、K-Meansクラスターは、いくつのクラスターに分類するか、そのクラスター数を明示的に指定する必要があります。一般的には、クラスター数が分析実行前に明確に決まっていることは稀であり、分析結果を評価・吟味しながら最適なクラスター数を探る必要があり、探索的に分析を進めることが多い分析です。

IBM SPSS Modelerには、クラスター分析のアルゴリズムの1つとしてK-Meansノードが含まれており、分析に使用するフィールドの指定を行えば比較的簡単にクラスターを識別することができますが、その際のクラスター数は5個がデフォルト設定になっています。したがって、ノードの設定を確認せずにK-Meansクラスターを実行しても、必ず5個のクラスターにしか分けてくれません。そこで、実際にはクラスター数を変えながら、さまざまなパターンを試行することになります。

ただし、K-Meansノードで一度に指定できるクラスター数は1パターンだけです。複数パターンのクラスター数で実行したい場合は、自動クラスタリングノードを用いると効率的です。

自動クラスタリングノードにおけるK-eansのクラスター数の指定
(1)エキスパートタブで「K-means」の「モデルパラメーター」を選択します。
(2)「指定…」を選択します。

k-means設定

(3)「クラスター数」の「オプション」を選択します。

k-meansクラスター数

クラスター数を指定するエディターが表示されるので、試行したいクラスターの数を指定します。クラスター数として「4」「6」「7」「8」を追加してみます。

(4)「クラスター数」に「4」を指定して追加ボタンをクリックします。
(5)「クラスター数」に「6」を指定して追加ボタンをクリックします。
(6)「クラスター数」に「7」を指定して追加ボタンをクリックします。
(7)「クラスター数」に「8」を指定して追加ボタンをクリックします。

k-meansクラスター数

(8)「OK」ボタンをクリックします。

以上の設定で、クラスター数4~8個でそれぞれ分析を実行することになります。

k-meansアルゴリズムの設定

(9)「OK」ボタンをクリックします。

K-meansによって作成されるモデル数は5個です。この例では、KohonenとTwo-Stepのモデルタイプはオフにしています。デフォルトでは、結果について良いと判断されるものから上位5個が選択されます(この設定はモデルタブの「保存するモデル数」で変更可能です)。

自動分類ノード

モデル作成の結果、全体像(レコードが所属するクラスター中心への距離と最近隣クラスター中心との距離の情報に基づいて計算されます)と呼ばれる指標に基づき、クラスター数6個の場合がレコードをもっとも明確に分類できることが分かりました。試行したクラスター数の中で2番目に良いのは5個の場合、3番目に良いのは4個に分類する場合のようです。

自動クラスタリング

クラスター分析は、対象フィールド(従属変数/目的変数)を設定しない教師なし学習の方法です。したがって、分析の結果が正しいかどうかは、データをうまく説明できる特徴的なクラスターに分かれているか、マーケティングの施策に落とし込めるクラスターになっているかなどの観点から評価することになりますので、それぞれのクラスタープロフィールを評価することが重要です。(クラスタープロフィールは、モデルナゲットをダブルクリックすると表示されます)

以上のように、自動クラスタリングノードを活用することで、K-Meansクラスターの数を数パターン同時に実行することができ、より効率的なモデル作成を実現することができます。

目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。

■ 支援サービス:セミナー・研修
http://www.stats-guild.com/seminar/schedule

■ 支援サービス:受託データ分析
http://www.stats-guild.com/services/analytics

■ テキストブック
http://www.stats-guild.com/spss-e-learning/textbook


banr002

PAGE TOP ↑