IBM business Partner logo
分析支援サービス
IBM SPSSによるデータ分析、情報活用

Correlation coefficient

相関係数
2つの変数間の関係性を数値で表す統計指標です。相関係数は、変数間にどの程度の線形関係があるかを測定し、その強さと方向を示します。変数間の関係を評価するための基本的な指標であり、データ分析や統計モデリングの初期段階で広く利用されます。
  • 分析手法の種類
  • 予測する
  • 要因を探る
  • 比較する
  • 分類する
  • 集計する
  • 可視化する
Application

2変数の線形の関係性の指標

相関係数は、2つのスケール変数の関係性を調べるための2変量解析の手法です。相関関係は直線で要約されるものであり、線形相関とも呼ばれます。小文字のrで表記され、-1≦r≦1の範囲をとり、+は正の相関、‐は負の相関を意味し、絶対値が1に近いほど関係性が強いことを意味します。ただし、相関係数で曲線相関を調べることはできないため、外れ値の吟味の目的も含めて散布図によるグラフの評価が必要です。

Pearsonの積率相関係数は、最も一般的に使われる相関係数で、2つの連続変数の間にどれだけ線形関係があるかを測定します。データが正規分布に従い、線形関係があることが前提です。Spearmanの順位相関係数は、データの順位(ランク)に基づいた相関を測定します。非線形関係や外れ値がある場合でも適用可能で、データが正規分布に従わない場合や、順序尺度のデータに適しています。Kendallの順位相関係数は、2つの変数間の順位の一致を測定し、特にデータが小規模な場合や、データに外れ値が含まれている場合に有効です。Spearmanの相関係数と似ていますが、計算方法が異なります。

相関係数は、因果関係を示すものではないため、2つの変数が相関していても、片方が他方の原因であるとは限りません。また、相関係数は線形関係を測定するため、非線形の関係がある場合、正しい関係性が捉えられないことがあります。外れ値があると、Pearsonの相関係数が影響を受けるため、データの特性に応じてSpearmanやKendallの相関係数を使用することが推奨されます。

相関係数は、単純に2変数の関係性を示す指標ですので、背景として影響する変数(交絡/共変量)がある場合は偏相関係数を用いたり、重回帰分析などの多変量解析を必要とします。

Software

ソフトウェア

SPSSでは基本機能のBaseのみで相関係数、有意確率、信頼区間を計算可能です。偏相関係数や回帰分析も基本機能として提供されます。Rではstatsパッケージがデフォルトで提供されており、基本的な相関係数の計算が可能です。Hmiscpsychパッケージを使うと、p値やより詳細な情報も取得できます。Pythonではpandasscipyが主要なライブラリとして使われています。

参考文献

  1. Pearson, K. (1895). Note on Regression and Inheritance in the Case of Two Parents. Proceedings of the Royal Society of London, 58, 240-242.
  2. Spearman, C. (1904). The Proof and Measurement of Association between Two Things. American Journal of Psychology, 15(1), 72-101.
  3. Spearman, C. (1906). ‘Footrule’ for Measuring Correlation. British Journal of Psychology, 2(1), 89-108.
  4. Kendall, M. G. (1938). A New Measure of Rank Correlation. Biometrika, 30(1-2), 81-93.
  5. 東京大学教養学部統計学教室(1991),統計学入門 (基礎統計学Ⅰ),東京大学出版会
  6. 対馬 栄輝(2016),SPSSで学ぶ医療系データ解析,東京図書
  7. 石村友二郎,石村貞夫(2022),SPSSでやさしく学ぶ多変量解析 第6版,東京図書.
  8. IBM_SPSS_Statistics_Base.pdf
PAGE TOP ↑