ランダムフォレスト(random forest)とは？PythonとRで実装してみよう！

ウマたん

当サイト【スタビジ】の本記事では、決定木をアンサンブル学習することにより汎化能力を高めた強力な機械学習手法「ランダムフォレスト」について見ていきましょう！アルゴリズムを確認した後にRでもPythonでも実装をおこなっていきますよー！

こんにちは！

データサイエンティストのウマたん(@statistics1012)です！

汎化能力の非常に高いかつ簡易的に実装可能なランダムフォレストについてみていきましょう！

今でこそディープラーニングやXGboostなどの台頭により日の目を見なくなりましたが、依然としてパッケージで簡単に実装でき相当良い精度をたたき出す最強手法であることには変わりありません。

ウマたん

ランダムフォレストは機械学習手法の中でも非常に優秀なイメージがあるよ！学生時代は非常にお世話になったなー！

ロボたん

ランダムフォレストについて詳しく見ていきその特徴を学んでいこう！そしてRとPythonで実装していこう！

さて、ランダムフォレストとは一体どんな手法なのでしょうか？

読み飛ばしガイド

・ランダムフォレストのアルゴリズム
・ランダムフォレストをRで実装
・ランダムフォレストをPythonで実装

以下の動画でも解説をしていますよー！

ランダムフォレストとは
ランダムフォレストのアルゴリズム
ランダムフォレストはどんな時に使える？
ランダムフォレストをPythonで実装してみよう！
ランダムフォレストをRで実装してみよう！
- irisデータをランダムフォレストで分類
- タイタニックでの生死予測をランダムフォレストと他の手法で比較
ランダムフォレスト　まとめ

ランダムフォレストとは

まず、ランダムフォレストについてまとめられた海外の論文から引用してみましょう！

Random forests are a combination of tree predictors such that each tree depends on the values of a random vector sampled independently and with the same distribution for all trees in the forest.
引用元：Google-“Random Forests”

ランダムフォレストとはざっくり言うと、

「決定木をたくさん集めて合体させた手法」

です。

決定木に関しては「決定木」を見てください。詳しくまとめています。

決定木は単体だとそれほど強い手法ではありません。

しかし、その決定木をバギングと呼ばれる集団学習法（アンサンブル学習）を用いてたくさん集めてくると最強のランダムフォレストが出来上がるんです。

アンサンブル学習法は、決して精度が高いとはいえない弱いモデルをたくさん構築し、これらの予測結果を統合することで高い精度を出す方法論です。

アンサンブル学習とは？バギングとブースティングとスタッキングの違いと注意点当サイト【スタビジ】の本記事では、アンサンブル学習についてまとめていきます！加えて学習手法のバギング、ブースティング、スタッキングについても紹介します。アンサンブル学習とは機械学習を学ぶ上で非常に重要な考えであり、いくつかのモデルを組み合わせて汎化能力を上げるもの。有名なランダムフォレストやXgboostなどもアンサンブル学習によって生み出されているんです！...

ランダムフォレストのイメージはこんな感じ。

なんでもかんでもバギングすれば良くなるわけじゃないことは注意しておきましょう！

それでは、次に具体的なアルゴリズムを見ていきます

ランダムフォレストのアルゴリズム

アルゴリズムについては、機械学習の教本として有名な「はじめてのパターン認識」から引用していきます！

非常に有名で他の機械学習手法についてもしっかり学べるので興味があれば見てみてください！

はじめてのパターン認識

created by Rinker

データセットからN個のブートストラップサンプルを作成する。
ブートストラップサンプルの中から分岐に用いる変数をM個ランダムサンプリングし、決定木を作成する。
1~2を繰り返す。
量産された決定木に対して、予測したいデータを入力する。
全ての結果を統合(回帰の問題では平均、分類の問題では多数決)して、1つの予測結果として出力する。
引用元：「はじめてのパターン認識」

ランダムサンプリングする変数の数Mはユーザが自由に設定することができますが、一般的には変数の数の正の平方根を取ることが多いです。

ランダムフォレストはどんな時に使える？

ランダムフォレストのアルゴリズム自体はそれほど複雑ではありませんが、決定木を弱学習器として用いており結果を解釈するのにはそれほど向いていません。

精度と解釈容易性は比較的トレードオフの関係にあるため、解釈容易性を求めるなら決定木を用いたほうが良いです。

ウマたん

実務の現場では意外と単純な決定木の方が好んで使用されるよね！

ロボたん

そうそう！解釈と予測の違いを明確にして手法を使い分けていったほうがいいね！以下の記事も参考にしてみてね！

機械学習と統計学/多変量解析の違いについてデータサイエンティストがモノ申す！！当サイト【スタビジ】の本記事では、データサイエンスの領域の機械学習と統計学の違いについて考察していきます。定義と境界が曖昧な2つの領域ですが、目的の違いを理解しておくことが大事。機械学習は予測精度を上げることを目的とし統計学はデータ構造の把握をすることを目的とします。...

精度を徹底的に求めるならランダムフォレストなどの機械学習手法を使いましょう！

無論、XGboostやLight gbmなどの勾配ブースティング木が強いことは言うまでもありませんが笑

ちなみにランダムフォレストでも、変数重要度を算出することができどの変数が寄与しているのかを可視化することは可能です。

ランダムフォレストをPythonで実装してみよう！

それでは早速、Pythonでランダムフォレストを実装していきます。

データ分析コンペ Nishikaの「中古マンション価格予測」というトレーニングコンペのデータに対してランダムフォレストを実装してみたいと思います。

まず Nishikaに会員登録をして中古マンション価格予測のデータから学習データとテストデータをダウンロードしてローカルのフォルダに入れておきましょうー！（※会員登録をしないとデータをダウンロードできません）。

学習データには複数CSVが入っているので、それらをglobで結合させてデータフレーム化していきます。

globは、ディレクトリに格納されたファイル名を抽出するのに便利なライブラリです。

【5分で分かる】コード付きで解説！Pythonのglobの使い方まとめ！こんにちは！スタビジ編集部です！この記事では、Pythonでディレクトリに格納されたファイル名を抽出するのに便利なライブ...

コードは以下！

そのあと一部カラムに関しては分析しやすいように加工していきます。

そしてランダムフォレストを以下の部分で実装しています。

model = RandomForestRegressor(n_estimators=100)
model.fit(train_x, train_y.values)

pre = model.predict(val_x)
r2_score(val_y, pre)

ここでは評価指標に決定係数を使っています。

結果は0.853となりました！

それなりの精度。

ランダムフォレストをRで実装してみよう！

それでは続いてランダムフォレストを使ってRで解析を行ってみましょう！

ここで行う分析は2つ。

有名な花びらのirisデータを用いた簡単な解析とデータ解析コンペKaggleでも代表的なデータとして取り上げられているタイタニックのデータを使ったシミュレーションを何回か行う解析を行っていきます。

irisデータをランダムフォレストで分類

irisデータとはあやめの種類を分類したデータで目的変数は3カテゴリーの質的変数、説明変数は花びらの幅とか4つです。

サンプルは150個で、分類しやすいデータなのでどんな手法でも割と簡単に分類できるんですが、どうなるでしょう！

今回はランダムフォレスト以外に決定木とサポートベクターマシンとニューラルネットワークで比較しました。

ランダムフォレスト
 pred.forest  setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         1
##   virginica       0          2        18
決定木
pred.cart    setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         26         3
##   virginica       0          1        16
SVM
pred.svm     setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         1
##   virginica       0          2        18
ニューラルネット
 pred.nn      setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         2
##   virginica       0          2        17

結果はこんな感じになりました！

予想通りどれもいい感じに分類できてますね～！まあirisデータは分類しやすいので！

タイタニックでの生死予測をランダムフォレストと他の手法で比較

続いて！

タイタニックのデータを用いて解析を行っていきます。Kaggleの公式サイトからデータをダウンロードできます。

まず、データのクレンジングを行い、欠損値は削除、不要と考えられる項目は削除しました。

項目8つ

Survived：生死　pclass：客室のクラス　sex：性別　age：年齢　sibsp：兄弟・配偶者の数　parch：親・子供の数　fare：乗船料金　embarked：乗船した港

サンプル数714

この時、生死を目的変数としそれ以外を説明変数とします。

サンプル数714のうちランダムに400個のデータを取り出し学習データとし、残りの314を予測データとします。

学習データで予測モデルを作り、予測データにあてはめ真値と予測値の判別率を精度として比較します。

シミュレーション回数は10回とし、上記の手順を10回繰り返し、結果を平均したものを最終アウトプットとします。シミュレーション回数をもっと増やせば精度の信頼性は上がります。

ランダムフォレストをサポートベクターマシン、ナイーブベイズ、ニューラルネットワーク、XGboost、k近傍法の5手法と比較します！

基本的に引数は全部デフォルトで！果たして結果はどうなるでしょうか！

randomForestというパッケージに入っているrandomForestという関数を用いて解析を行っていきます。

 ##randomForest##
  rf<-randomForest(Survived~.,train.data)
  test.data.rf<-cbind(test.data,"predict"=predict(rf,test.data))
  result[i,1]<-sum(test.data.rf$predict==test.data.rf$Survived)/nrow(test.data.rf)

データ加工は描画でいくつかコードを書いていますが、実際にランダムフォレストを行っているのはこの数行！

Survived~.はSurvivedを目的変数としてそれ以外を説明変数にするよーということです。

結果は以下のようになりました！