機械学習

ランダムフォレスト

  • このエントリーをはてなブックマークに追加
  • LINEで送る

こんにちは!

今回は、汎化能力の非常に高い最強手法ランダムフォレストについてみていきましょう!

今でこそディープラーニングやXgboostなどの台頭により日の目を見なくなりましたが、依然としてパッケージで簡単に実装でき相当良い精度をたたき出す最強手法であることには変わりありません。

そんなランダムフォレストとは一体どんな手法なのでしょうか?

ランダムフォレストとは

ざっくり言うと、

決定木をたくさん集めて合体させた手法

です。

決定木に関しては「決定木」を見てください。詳しくまとめています。

決定木は単体だとそれほど強い手法ではありません。

しかし、その決定木をバギングと呼ばれる集団学習法を用いてたくさん集めてくると最強のランダムフォレストが出来上がるんです。

集団学習法は,決して精度が高いとはいえない弱いモデルをたくさん構築し,これらの予測結果を統合することで高い精度を出す方法論です。

ランダムフォレストのイメージはこんな感じ。

なんでもかんでもバギングすれば良くなるわけじゃないことは注意しておきましょう!

それでは、次に具体的なアルゴリズムを見ていきます

ランダムフォレストのアルゴリズム

有名なはじめてのパターン認識から引用します!

  1. データセットからN個のブートストラップサンプルを作成する。
  2. ブートストラップサンプルの中から分岐に用いる変数をM個ランダムサンプリングし、決定木を作成する。
  3. 1~2を繰り返す。
  4. 量産された決定木に対して、予測したいデータを入力する。
  5. 全ての結果を統合(回帰の問題では平均、分類の問題では多数決)して、1つの予測結果として出力する。

 

ランダムサンプリングする変数の数Mはユーザが自由に設定することができますが、一般的には変数の数の正の平方根を取ることが多いです。

データ解析

それでは具体的にランダムフォレストを使って解析を行ってみましょう!

データはなんでも良いんですが、とりあえず簡易的にRにデフォルトで入っているirisデータを使いましょう!あやめの種類を分類したデータで目的変数は3カテゴリーの質的変数、説明変数は花びらの幅とか4つです。

サンプルは150個で、分類しやすいデータなのでどんな手法でも割と簡単に分類できるんですが、どうなるでしょう!

今回はランダムフォレスト以外に決定木とSVMとニューラルネットワークで比較しました。

ランダムフォレスト
 pred.forest  setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         1
##   virginica       0          2        18
決定木
pred.cart    setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         26         3
##   virginica       0          1        16
SVM
pred.svm     setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         1
##   virginica       0          2        18
ニューラルネット
 pred.nn      setosa versicolor virginica
##   setosa         29          0         0
##   versicolor      0         25         2
##   virginica       0          2        17

 

結果はこんな感じになりました!

予想通りどれもいい感じに分類できてますね~!まあirisデータは分類しやすいので!

 

続いて!

こちらも有名な

タイタニックのデータを用います。

まず、データのクレンジングを行い、欠損値は削除、不要と考えられる項目は削除しました。

 

項目8つ

Survived:生死 pclass:客室のクラス sex:性別 age:年齢 sibsp:兄弟・配偶者の数 parch:親・子供の数 fare:乗船料金 embarked:乗船した港

サンプル数714

 

この時、生死を目的変数としそれ以外を説明変数とします。

 

サンプル数714のうちランダムに400個のデータを取り出し学習データとし、残りの314を予測データとします。

学習データで予測モデルを作り、予測データにあてはめ真値と予測値の判別率を精度として比較します。

シミュレーション回数は1000回とし、上記の手順を1000回繰り返し、結果を平均したものを最終アウトプットとすします。

ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、ニューラルネットワークの4手法で比較します!

基本的に引数は全部デフォルトで!果たして結果はどうなるでしょうか!


見づらいですが、やはりランダムフォレストとSVMが強いですね!

ランダムフォレストに関してもっと詳しく知りたいかたは以下の書籍を参考にしてみてください!

 

 

  • このエントリーをはてなブックマークに追加
  • LINEで送る

コメントを残す

*

CAPTCHA