ランダムフォレスト(Random forest)
ランダムフォレストとは
大きな特徴として、レコードだけではなく特徴量(入力フィールド)もサンプリングされるため、候補となる特徴量が非常に多いデータセットでも比較的高速にツリーが作成され、各ツリーの多様性と高い予測精度が期待できます。複数のツリーをランダムに構築して、それらの結果を組み合わせるので、集団学習やアンサンブル学習とも呼ばれます。
アンサンブル学習とは
アンサンブル学習は、複数のモデルを使用した集団学習によってモデルのバイアス(Bias;偏り)やバリアンス(Variance;ばらつき)を小さく抑えて精度を向上させる方法です。アンサンブル学習の基本的な考え方は、簡単に言えば多数決です。異なるモデルを複数作成し、その結果を結合させることで予測精度を高めます。予測対象がカテゴリ型の場合は多数決によって最終的な予測結果を決定します。

予測対象が連続型の場合は各モデルの平均をとります。

アンサンブル学習では複数のモデルの結果を使用しますが、仮に、それぞれのモデルが全く同じ構造だった場合は予測値もすべて同じとなり予測精度は向上しませんので、モデルの多様性が必要です。アンサンブル学習でよく用いられる手法に、バギング(Bagging)とブースティング(Boosting)があります。
バギングやブースティングとの違い
バギングは、モデルの予測結果のバリアンスを小さくする特徴があります。ブートストラップサンプリング(復元抽出)によって学習データの一部を使用した複数のデータセットを生成し、複数のモデルを作成してアンサンブルする方法です。サンプリングされた複数のデータセットはそれぞれ内容が異なるため、作成されるモデルも多様化します。その平均をとることで各データの予測値のばらつきを小さくします。

ブースティングは、モデルのバイアスを小さくする特徴があります。バギングと同様にサンプリングによって複数の学習データセットを生成しますが、モデルを1つずつ順番に作成し、誤分類したデータを優先的に当てるように次のデータセットに重みを付けて調整し、これを繰り返し行い、複数のモデルを作成してアンサンブルする方法です。最初に作ったモデルがベースとなり、そのモデルに対して反復処理を行って複数のモデルを作成することでモデルの偏りが小さくなります。前のモデルの結果を考慮して次のモデルの重みを調整しているため、バギングのような並列処理ができず計算に時間がかかります。

ランダムフォレストはバギングの一種で、モデルの予測結果のバリアンスを小さくする特徴があります。バギングとの違いは、「レコード」と「特徴量(フィールド/説明変数)」の両方をサンプリングしている点です。バギングでは同じ特徴量を使用してモデルを作成するため、データセットによっては似たモデルが作られ、モデル間の相関が強くなる場合がありますが、ランダムフォレストでは特徴量もサンプリングすることでモデル間の相関が低くなり、バギングよりもモデルの多様性が高くなり、バリアンスも小さくなります。
ランダムフォレストの考え方
1.ブートストラップサンプリング(復元抽出)により複数の学習データセットを生成する
2.学習データセットごとにランダムにK個の特徴量を選択し、ディシジョンツリーをN個作成する
3.N個のディシジョンツリーの結果をアンサンブルにより結合する
ランダムフォレストの主要なパラメータ
・作成するツリーの数
・使用する特徴量の数
作成するツリーの数を多くするとモデルの多様性が高くなるためバリアンスが小さくなりますが、多すぎると計算に時間がかかります。使用する特徴量の数Kは、一般的に特徴量の数Mの平方根(√M)が推奨されています。
特徴 / メリット
・予測精度が高い
・特徴量の重要度が評価できる
・オーバーフィットが起きにくい
・複数のツリーの並列処理が可能
予測精度の向上
ディシジョンツリーは、ツリーが深くなると構造が複雑になりオーバーフィット(Over Fitting;過学習)が起きやすいという問題がありますが、ランダムフォレストはアンサンブル学習によりディシジョンツリーよりも汎化性能(未知のデータに対して正解する能力)に優れ、テストデータへのあてはまりが良くなります。そのため、オーバーフィットが起きにくく、テストデータの予測精度向上が期待できます。
フィールド重要度の評価
ランダムフォレストの特徴量の重要度評価には以下の方法があります。
・不純度の平均減少(MDI;Mean Decrease Impurity)
・精度の平均低下(MDA;Mean Decrease Accuracy)
不純度の平均減少(MDI)はツリーの分割基準に基づく方法で、ツリーを分割した際の各特徴量の不純度減少量の平均を重要度とします。精度の平均低下(MDA)はOOBサンプル(ブートストラップサンプリングで選ばれなかったサンプル)を使用する方法で、IBM SPSS Modelerのランダムフォレストは不純度の平均減少(MDI)に基づく重要度が計算されます。
■ 参考文献
[1] LEO BREIMAN『Random Forests』Machine Learning, 45(1), 5-32, 2001.(Jan., 2001)
[2] P. Geurts, D. Ernst., and L. Wehenkel『Extremely randomized trees』Machine Learning, 63(1), 3-42, 2006.
[3]Trevor Hastie(著),Robert Tibshirani(著),Jerome Friedman(著)杉山将(監訳)他『統計的学習の基礎-データマイニング・推論・予測-』