分析支援サービス
IBM SPSSによるデータ分析、情報活用

欠損レコードを除外したデータセットの作成

欠損レコードを除外したデータセットの作成

データ検査ノードの自動生成機能の活用
SPSS Modeler
IBM SPSS Modelerでは、予測モデル作成のためのいくつかの手法を使用する場合、欠損レコードが含まれて処理が行われます。また、グラフ作成を行う場合にも欠損レコードが含まれた形で処理されます。欠損レコードを分析やグラフ作成に含めたくない場合は、事前に欠損値を何からの適切な値に置き換えておくか、欠損値を持つレコードを除外することがあります。
欠損値を持つレコードを除外する場合、条件抽出ノードを使用することができますが、条件式の入力が必要になります。データ検査ノードを使用すると欠損値のチェックを行うことに加え、欠損値を持つレコードを除外するための条件抽出ノードを生成することができて便利です。

1欠損レコードの確認

データ検査ノード

以下のデータセットでは、Q1~Q5の5つのフィールドに欠損値($null$)を含んでいます。IBM SPSS Modelerでは、欠損値を別の値に置き換えるデータ加工の機能も持ちますが、この例では、データ検査ノードを使用して、フィールドQ1~Q5で欠損値を持つレコードを除外する方法を確認します。

SPSS Modelerのテーブル結果

データ検査ノードの実行

  1. 「出力」パレットから「データ検査」ノードをストリームキャンバスに挿入します
  2. 「データ検査」ノードを実行します
SPSS Modelerのテーブル結果

データ検査の結果が出力され、各フィールドの視覚的および数値に基づく要約情報や有効レコード数が確認できます。欠損値の内訳の詳細を確認する場合は、欠損値検査タブを表示します。

SPSS Modelerのノードの生成

欠損値検査の結果を確認

  1. 「欠損値検査」タブをクリックします
SPSS Modelerのノードの生成

欠損値に関する情報は画面右側に表示されるため、フィールド名の列をドラッグして右側に移動させます。

SPSS Modelerのノードの生成

非欠損レコード40%であり、欠損値を持たない有効レコードが全体の40%(この例では全10レコードのうち4レコードが有効)であることが分かります。また、数値型フィールドの場合は「ヌル値」列から各フィールドの欠損値の数を確認できます。

2欠損レコードの除外

ノードの生成

次に、欠損レコードを除外するために、欠損値を持たない有効レコードのみを抽出するノードの生成を行います。

有効レコードの抽出

  1. 「生成」メニューから「欠損値選択ノード」を選択します
  2. 「レコードが次の状態の時に選択」にある「有効」ラジオボタンを選択します
  3. 「OK」ボタンをクリックします。(データ検査ノードの結果もOKボタンで閉じます)
SPSS Modelerのノードの生成
SPSS Modelerのノードの生成

この例では欠損レコードを除外したいので有効レコードを保持する意味で「有効」を選択しました。「無効」を選択すると欠損レコードをだけを選択する条件に変わります。有効と無効の設定は生成される条件抽出ノード内でも変更が可能です。

SPSS Modelerのノードの生成

以上の手順で、(生成)という名前の条件抽出ノードがストリームキャンバスに作成されます。このノードには有効レコードのみを選択する条件式が含まれています。

3結果の確認

テーブルの実行

生成された条件抽出ノードをストリームに挿入して、テーブルに出力して結果を確認してみます。

条件抽出ノードの追加とテーブルの実行

  1. 「条件抽出」ノードをストリームに追加します
  2. 「テーブル」ノードを下流に追加して実行します
SPSS Modelerのノードの生成
SPSS Modelerのノードの生成

以上で、欠損値を含むレコードを除外して有効レコードのみのデータセットを作成することができました。

このようにデータ検査ノードによって生成された条件抽出ノードには、@NULL、@BLANKなどの欠損値を処理するための関数を使用した条件式が自動的に含まれていますが、ストリームに追加するだけの操作であれば複雑な関数の指定などを意識したり覚える必要ありません。
Modelerではプログラミングを意識することなく、専門領域に通じた現場担当者が、直観的な操作でデータ加工や分析を実現することが可能です。 目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。

参考文献

  1. ModelerUsersGuide.pdf
  2. ModelerSPOnodes.pdf

トレーニング

SPSS Q&Aサービス

無料体験
PAGE TOP ↑