分析支援サービス
IBM SPSSを利用したデータ分析、情報活用支援

プライバシーマーク

傾向スコアによるマッチング / Statistics

公開日:  最終更新日:2018/08/30   SPSS TIPS Statistics 

傾向スコア (Propensity Score, PS) は、無作為割付が難しく様々な交絡が生じやすい観察研究において、共変量を調整して因果効果を推定するために用いられるバランス調整の統計手法です。無作為化比較試験 (Randomizes Controlled Trial, RCT) では、介入群と対照群への割付が無作為 (ランダム) に行われるため、測定されている既知の要因だけではなく測定されていない未知の要因についても無作為になっていると考えることができ、独立変数の効果を単純に比較することができます。例えば、介入群と対照群のどちらの方が病気が治った人が多いかを単純に比べることができます。

しかし、観察研究においては介入群と対照群への割付は無作為に行われているわけではないため、独立変数と従属変数の両方に相関を持つ様々な交絡要因 (共変量) の存在を考えなければなりません。例えば、介入群では高年齢層・喫煙者が多く、対照群では若年層・非喫煙者・高血圧・飲酒が多かったりするように背景情報がバラバラになってくると、治療効果が介入による影響なのか、年齢や喫煙、高血圧など背景要因の影響によるものなのかが分からなくなります。

■ マッチング前の2群の共変量の平均値 (背景情報が等質ではない)

tips6879115

上記のような背景を持つデータで、独立変数(treat)によって効果(status)に違いがあるかを分析してみると、クロス集計表およびロジスティック回帰分析の結果から治療効果に2群の違いは認められず (対照入群=50.5%、介入群=50.7%、OR=1.009 (0.851 to 1.196) )、介入による効果はなさそうですが、そもそも2つの群では背景となる年齢や性別、体重、喫煙、高血圧、飲酒、雇用形態などいろいろな要因に違いがみられるため、この分析結果を単純に受け入れるべきではなさそうです。

■ マッチング前の2群の比較 (効果の違いや有意差は認められない)

tips6879114
tips6879113

交絡因子が例えば年齢だけのように1つのみであれば、同じ年齢層による比較を行うなどマッチングによるバランス調整も比較的容易ですが、交絡因子が多数になる場合は単純なマッチング困難です。そこで、複数の共変量を1つにまとめて得点化した変数(傾向スコア)を用いて、背景情報のバランスを調整するために用いるのが、傾向スコアによるマッチングです。傾向スコアによるマッチングを行うことで、独立変数(介入)の効果を単純に比較できる可能性が高まります。

■ 必要なソフトウェア
・IBM SPSS Statistics Base および Regression (Ver22 以上)
・Essentials for Python
※IBM SPSS Statistics本体のインストール時に自動的にインストールされます。

また、ケースを特定する一意のID変数が必要になります。データファイル中にID変数が存在しない場合は、「変換」メニューに含まれる「変数の計算」機能で「$Casenum」システム関数を実行して、ID変数を作成しておきます。(TIPS「ケース識別変数(ID)の追加」)

傾向スコアの推定に用いられる代表的な分析手法は、ロジスティック回帰分析です。研究目的の本来のアウトカムではなく、2群への割付を意味する処置変数を従属変数、交絡要因となっている共変量を説明変数として用いたロジスティック回帰分析を実行して、介入群に割り付けられる確率を変数として保存します。傾向スコアを推定するためのロジスティック回帰分析を実行してから、ケース・コントロールの一致を図る手順もありますが、この例では、IBM SPSS Statisticsに含まれる「傾向スコアによる一致」メニューを使用する方法を紹介します。

■ 傾向スコアによるマッチングの手順
(1) [データ] メニュー > [傾向スコアによる一致] を選択します。

tips6879105

(2)「傾向スコアによる一致ダイアログボックス」で、必要な設定を行います。

tips6879106

「グループインジケーター」:2群への割付を意味する変数を指定します。
「予測変数」:2群への割付を説明するための説明変数(交絡因子)を指定します。
「傾向スコアの名前」:保存される傾向スコア変数の任意の名前を入力します。
「適合度の許容」:マッチング対象とするケースの傾向スコアのずれの大きさ(キャリパー)を指定します。この値を大きくするとマッチングされるケースが増え、値を小さくするとマッチングされるケースが減ります。傾向スコアの標準偏差の0.25倍が目安としてよく用いられます。
「ケースID」:ケース番号を特定する変数を指定します。
「一致ID変数名」:マッチングによって一致したIDを記録するための任意の変数名を入力します。
「出力データセット名」:マッチング後のデータセットの任意の名前を入力します。

(3) オプションボタンをクリックします。
(4)「完全一致を優先」にチェックを入れます。
(5)「乱数のシード」に任意の数値(例えば、123)を入力します。

tipas6879-15

乱数のシードを明示的に指定しておくことで、同一データにおけるマッチング結果の再現を保証することができます。シードが指定されていない場合、マッチングを行うたびに異なる結果になる可能性があります。シードの値は任意の数値で問題ありません。

(6) OKボタンをクリックします。

tips6879107

新しいデータセットが作成され、推定された傾向スコアとマッチングIDが追加されます。上記の例では「ps」が傾向スコアであり介入群に割り付けられる確率を意味します。傾向スコアが近いケースがマッチングされ「mid」がマッチングされたケースには対象のID番号が記録されています。「mid」が欠損値になっているケースは、マッチング対象がなかったケースです。次にマッチングされたケースのみに絞り込みを行います。

(7)「データ」メニュー > [ケースの選択]を選択します。
(8)「IF条件を満たしたケースを含む」ラジオボタンを選択して「IF」ボタンをクリックします。
(9)「MISSING(mid)~=1」と入力します。

tips6879108

MISSING関数は、指定した変数に欠損値が含まれるかどうかを判定することができ、欠損値の場合に1または真を返します。MISSING(mid)~=1は、midが欠損値ではないという意味になり、欠損値ではないケースを抽出する場合によく用いられます。

(10)「続行」ボタンをクリックします。
(11)「選択されたデータを新しいデータセットにコピー」ラジオボタンをクリックします。
(12)「データセット名」に任意のデータセット名を入力します。
(13)「OK」ボタンをクリックします。

tips6879109

マッチングされたケースのみを含む新たなデータセットが作成されます。このデータセットで記述統計(探索的分析)を実行すると以下のような結果を得ることができます。

■ マッチング後の2群の共変量の平均値 (背景情報が等質に近づく)

tips6879116

■ マッチング前の2群の共変量の平均値 (背景情報が等質ではない)

tips6879115

■ マッチング後の分析

tips6879111
tips6879112

傾向スコアは、共変量を1つにまとめて背景情報のバランス調整に用いることができますが、観察されている共変量で調整を行いますので、観察されていない共変量での調整はできません。また、マッチングを行うと、マッチングできなかったサンプルが分析から除外されることになりますので、最終的に使用できるn数が少なくなります。もともとn数が少ないデータを扱っている場合には、傾向スコアの推定自体ができなかったり、マッチングできるケース数が少なく分析できないなどの問題はありますが、観察型の研究において背景情報のバランシングを行うことで、あたかも無作為割り付けを行ったように単純に分析を行うことができるメリットがあります。

目的や使い方、用途に応じて、IBM SPSS製品を有効にご活用いただき、課題解決・価値創造にお役立てください。

■ 参考文献
[1] Paul R. Rosenbaum; Donald B. Rubin『The Central Role of the Propensity Score in Observational Studies for Causal Effects』Biometrika, Vol. 70, No. 1. (Apr., 1983), pp. 41-55
[2] Shenyang Y. Guo(著),‎ Mark W. Fraser(著)『Propensity Score Analysis: Statistical Methods and Applications』SAGE Publications, Inc(2009)
[3] 星野崇宏(著)『調査観察データの統計科学 因果推論・選択バイアス・データ融合』岩波書店(2012)
[4] 新谷歩(著)『今日から使える医療統計』医学書院(2015)
[5] 内田治(著)『SPSSによるロジスティック回帰分析 第2版』オーム社(2016)
[6] 中室牧子、津川友介(著)『「原因と結果」の経済学』ダイヤモンド社(2017)

■ IBM SPSS Statistics Base
IBM SPSS Statisticsによるデータ入力、読込み、データ加工、基本統計量の出力、推測統計(仮説検定・信頼区間)、回帰分析、因子分析、クラスター分析、分散分析、グラフ作成、外部ファイルへのエクスポート、拡張機能などを有する基本モジュール
http://www.stats-guild.com/ibm-spss

■ E-Learningコース
SPSSによる統計解析を学習するための ハンズオン形式のE-Learningコース(Textbook付属)
http://www.stats-guild.com/spss-e-learning-textbook

■ SPSS講習会 SPSS Learning Room(E-Learning+講習会+QA)
E-Learningと集合タイプ講義をブレンドしたスタイルの講習会
https://www.stats-guild.com/spss-learning-room

SPSS講習会

PAGE TOP ↑