ファイルの結合-変数の追加(2)V25の手順 / Statistics
IBM SPSS Statisticsによる変数の追加の手順は以下の通りです。この手順は、V25に基づいています。V24以前のバージョンでは、設定方法の考え方は同じですがインターフェイスがやや異なるため「ファイルの結合-変数の追加(3)V24以前の手順 / Statistics」をご確認ください。
■ 必要なソフトウェア
・IBM SPSS Statistics Base V25
変数の追加を行うためには、事前に結合に使用するデータファイルを開いておいた方が良いでしょう。必須の作業ではありませんが、データセット名を変更しておくと作業内容がより分かりやすくなります(デフォルトのデータセット名は、データファイルを開いた順番にデータセット1、データセット2のように定義されます)。データセット名の変更は、「ファイル」>「データセット名の変更」メニューを使用します。ここでは、以下の2つのファイルの変数を統合します。
■ 顧客情報を含むデータセット(※データセット名を「顧客情報」に変更済み)
顧客情報として「ID」「性別」の2つの変数を含みます。「ID」に重複はありません。
■ 購買情報を含むデータセット(※データセット名を「購入金額」に変更済み)
購買情報として「ID」「購入金額」の2つの変数を含みます。「ID」に重複があります。
■ 変数の追加の手順
あらかじめ[顧客情報]と[購入金額]の2つのデータファイルを読み込んでおき、[顧客情報]データセットをアクティブにしてファイル結合を行います。なお、IBM SPSS Statistics形式のデータファイルの場合は、あらかじめファイルを開く必要はありませんが、ExcelやCSVなどの別の形式のデータファイルの場合は、一度SPSSに読み込んでおかなければなりません。
(1) [データ] メニュー > [ファイルの結合] > [変数の結合] を選択します。
(2)「変数の追加先ダイアログボックス」で、必要な設定を行います。
開いているデータセットの一覧から[購入金額]を選択して「続行」ボタンをクリックします。
(3)表示される「変数の追加」ダイアログボックスで必要な設定を行います。
■ 「ファイル順に基づいた1対1のマージ」
結合の際にキー変数を使用せず、ファイルの並び順のまま2つのファイルのケース同士を1:1の関係で結合する場合に使用します。この方法は、ケースの並び順がずれている場合などに間違ったケース同士が結合されてしまう危険性が高く、あまり推奨されません。
■ 「キー値に基づいた1対1のマージ」
キー変数の値の一致を条件に、2つのファイルを1:1の関係で結合します。この方法では、互いのファイルのキー値は1回しか使用されず、重複したキー値は無視されます。もしこの例で「キー値に基づいた1対1のマージ」によって結合するとその結果は以下のようになり、顧客情報と購入金額2つのデータセットのIDの値が、1:1の関係で結合されており、IDが重複している場合のケースは欠損値になります。なお、この方法の場合のシンタックスコードは「MATCH FILES /FILE=*」のように「/FILE」が指定されます。
■ 「キー値に基づいた1対多のマージ」
キー変数の値の一致を条件に、2つのファイルを1:多の関係で結合します。1:Nの結合とも呼ばれます。この方法では、一方のファイルのキー値は一意(ユニーク)で、もう一方のファイルのキー値が重複することを前提としています。キー値が一意(ユニーク)なファイルはルックアップテーブルと呼ばれます。もしこの例で「キー値に基づいた1対多のマージ」によって結合するとその結果は以下のようになり、顧客情報と購入金額2つのデータセットのIDの値が、1:多の関係で結合されており、IDが重複しているケースが有効値になります。なお、この方法の場合のシンタックスコードは「MATCH FILES /TABLE=*」のように「/TABLE」が指定されます。
(4) 「キー値に基づいた1対多のマージ」を選択します。
(5)「ルックアップテーブルの選択」に「顧客情報」を選択します。
「ルックアップテーブル」は、キー変数の値が一意(ユニーク)なデータセットです(従来のV24までは検索テーブルと呼ばれていたテーブルです)。この例では、顧客情報を含むデータセットが該当します。ルックアップテーブルを正しく指定しないと、ファイル結合が意図した結果にならない可能性があります。
また、変数の追加を行うためには、キー変数の値が昇順に並んでいる必要があるため、「マージ前にキー値順になるようファイルの並び替え」の機能が有効になっています(シンタックスでは「SORT CASES BY ID.」が自動的に追加されることになります)。この設定によって、ファイル結合の前に2つのファイルのキー変数の値がそれぞれ昇順に並び替えられます。もし、データファイルのキー変数が事前に昇順に並び替えられている場合は、並び替えを省略して処理時間を短縮させることも可能です。
(6) 変数タブをクリックします。
「含まれる変数」には、結合後のファイルに含まれる変数が表示されています。変数名の後ろについている記号(*)はその変数がアクティブデータセット(この例では[顧客情報])、(+)はその変数が追加されるデータセット(この例では[購入金額])から得られることを意味します。1つのファイルで同じ変数名を使うことは許されないため、名前が重複している変数は「除外された変数」にリストされます。変数を除外せずに結合後のデータファイルに含めたい場合は「名前の変更」を行います。
「キー変数」は、2つのファイルで名前が一致している変数を使用することができます。この例では、IDを使用しています。
(7)「OK」ボタンをクリックします。
[顧客情報]と[購入金額]の2つのデータセットが結合されて「ID」「性別」「購入金額」の全ての変数が使用できるようになりました。顧客情報に含まれていないID=5のケースは「性別」の値がありませんので欠損値になっています(欠損値のケースを除外したい場合は、ケースの選択メニューを使用します)。
このように、ファイルの結合を行うことによって、異なるデータファイルに含まれる変数を統合して、分析や集計に使用することができるようになります。なお、ファイルの結合のメニューで同時に扱うことができるのは2つのファイルまでです。3つ以上のファイルを結合させる場合は、メニューを使用して順繰りに結合作業を繰り返すか、シンタックスコマンド「MATCH FILE」または「STAR JOIN」を使用します。シンタックスの詳細については「IBM_SPSS_Statistics_Command_Syntax_Reference.pdf」またはシンタックスヘルプをご確認ください。
目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。
■ IBM SPSS Statistics Base
IBM SPSS Statisticsによるデータ入力、読込み、データ加工、基本統計量の出力、推測統計(仮説検定・信頼区間)、回帰分析、因子分析、クラスター分析、分散分析、グラフ作成、外部ファイルへのエクスポート、拡張機能などを有する基本モジュール
https://www.stats-guild.com/ibm-spss
■ E-Learningコース:IBM SPSS Statisticsによる統計解析【入門編B】データの加工と前処理
SPSSによる統計解析を学習するための ハンズオン形式のE-Learningコース(Textbook付属)
https://www.stats-guild.com/spss-e-learning-textbook
■ SPSS講習会 SPSS Learning Room(E-Learning+講習会+QA)
E-Learningと集合タイプ講義をブレンドしたスタイルの講習会
https://www.stats-guild.com/spss-learning-room