分析支援サービス
IBM SPSSを利用したデータ分析、情報活用支援

外れ値を除外したデータセットの作成 / Modeler

公開日:  更新日:2020/02/18   Modeler SPSS TIPS 

IBM SPSS Modelerは、外れ値を検出・除外するための様々な機能を持っています。例えば、多数のフィールドに基づいて外れ値を特定する機能として異常値検査ノードが含まれており、クラスター分析に基づいて特異なレコードを検出することで、外れ値になっていると思われるレコード番号の特定や、異常な値を示すフィールドを特定することが可能です。

また、単純に1フィールドごとに外れ値を調べる場合は、データ検査ノードを使用することで、例えば標準偏差の3倍の範囲外の値がいくつ含まれているかを簡単にカウントすることができます。

データ検査結果の例

上記の例では、支払金額フィールドに59個の外れ値が含まれていることが分かります。なお、外れ値や極値を検出する基準は、データ検査ノードの設定に基づきます。デフォルトでは、外れ値は標準偏差の3倍の範囲外、極値は標準偏差の5倍の範囲外に観測される値が該当します。

データ検査ノード

このように1フィールドごとに外れ値を調べる場合は、データ検査ノードを使用すると便利ですが、この機能だけでは外れ値の数を確認することはできても、具体的にどのレコードが外れ値に該当しているかが分かりません。そこで、データ検査の結果画面から以下の操作を行うと、外れ値に該当するレコードを抽出するノードを自動生成させることができます。

(1)データ検査の結果の画面で該当するフィールドを選択します。

(2)データ検査の結果の画面の「アクション」セルを選択して「破棄」を選択します。

データ検査と外れ値チェック

(3)「生成」メニューの「外れ値および極値スーパーノード」クリックします。

tips3600-4

ノードを生成するための以下の画面が表示されます。すべてのフィールドを対象としてノードを生成するか、データ検査の結果の画面で選択したフィールドの外れ値のみを対象とするかを選択します。この例では、選択されたフィールドのみを対象とします。

(4)「選択されたフィールドのみ」を選択して、OKボタンをクリックします。

tips3600-5

tips3600-6

ストリームキャンバスに外れ値と極値のスーパーノードが追加されます。このノードには、外れ値を除外するための条件式が書かれた条件抽出ノードが含まれており、ストリームにノードを追加することによって、外れ値を除外したデータセットを作成することができます。

(5)生成されたスーパーノードをストリームに追加して、テーブルノードをリンクして実行します。

tips3600-7

tips3600-8

テーブルには、7,706レコードが含まれており、これは元のレコードから外れ値に該当する59レコードが除外された結果です。

tisp3600-9

スーパーノードをズームインすると(ツールバーのズームインボタン)、条件抽出ノードが自動生成されていることが確認でき、支払金額について、標準偏差の3倍の範囲外のレコードが破棄される設定になっています。

tips3600-10

外れ値を破棄するのではなく、外れ値のみをデータセットに含めることで、具体的なレコードの吟味や評価を行うことができます。

(6)条件抽出ノードのモードの設定を「破棄」から「含める」に変更します。

tips3600-11

条件抽出ノードを閉じ、スーパーノードをズームアウトして元のストリームに戻ってテーブルノードを実行すると、以下のように外れ値に該当する59レコードのみを含むデータが表示されます。

tisp3600-12

このように、IBM SPSS Modelerでは非常に簡単な操作で外れ値の特定を行い、外れ値を除外したデータセット(または外れ値のみを含むデータセット)を作成することができます。

目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。

■ SPSSデータマイニング基礎講座(オンラインコース)
IBM SPSS Modelerを利用したデータマイニングを基礎から学び予測モデル作成までを習得できる
https://www.stats-guild.com/spss-datamining-online

PAGE TOP ↑