こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
データサイエンスの世界で登場するのが、「教師あり学習と教師なし学習」という概念。
ディープラーニングが台頭してきたことにより、さらに良く聞くようになってきました。
今回は、そんな教師あり学習と教師なし学習の違いについてまとめていきます。
教師あり学習と教師なし学習
そう、言葉から何となくイメージが出来るように、教師あり学習はあらかじめ決められたラベルが付いていて、教師なし学習はラベルが付いていないんです。
教師あり学習・・・ラベルあり
教師なし学習・・・ラベルなし
統計の言葉で言うと、目的変数が定義された解析を行う場合それは教師あり学習。
目的変数がない場合は教師なし学習です。
例えば、先ほどの例だと、X1とX2という変数に対して赤黒という質的変数が存在するのですが、とくに赤黒というラベルを気にせず目的変数を定義せずに解析を行う場合は教師なし学習になるんです。
教師あり学習の場合は、答えが分かっている教師データを基にモデルを作って、それを答えの分からない未知データに当てはめます。
教師あり学習の例
続いて、教師あり学習の例を見ていきましょう!
回帰分析
教師あり学習の定番は、回帰分析。
回帰分析では、ある目的変数と説明変数の関係を見ていくことになります。
元々正解の分かっているデータから回帰モデルを作って、それを新たなデータに当てはめます。
アイスクリームの需要予測などが良い例。
アイスクリームの売れた個数(これがいわゆる教師ラベル)をその日の温度や湿度などから予測するモデルを作ります。
正解が分かっている教師データが与えられているので教師あり学習になります。
回帰分析についてはこちらの記事にまとめていますので良ければご覧ください!
判別分析
回帰分析が、量的変数を目的変数として扱うのに対して判別分析は質的変数を目的変数として扱います。
先ほどの赤黒の例などは、赤というラベルと黒というラベルが与えられており、それらは質的変数なので判別分析の分野ですね。
判別分析系のように質的変数を目的変数として扱うタイプとしては先ほどの機械学習手法や決定木などの手法も当てはまります。
決定木
決定木は、回帰にも分類にも用いることが可能な手法。
決定木っていうのはその名の通り木構造でデータ分類していく手法で、そこそこの精度と結果の視認性から実務の場で良く用いられています!
決定木に関しては以下の記事でまとめています!
各種機械学習手法
各種強力な機械学習手法も基本的には教師あり学習に分類されます。
それぞれ強みや弱みがありますのでここでは細かくは紹介しませんが、回帰問題・分類問題どちらにも使うことができる手法群です。
以下の記事で詳しくまとめています!
教師なし学習
続いて教師なし学習の例を見ていきましょう!
クラスター分析
クラスター分析は教師なし学習の中でもっとも有名ですね!
クラスター分析では、正解となるラベルが与えられていません。膨大なデータの中からあるパターンを見つけ出す手法になります。
例えば、顧客の行動データなどをクラスター分析にかけることによって、そのままでは見えてこない顧客セグメントが浮かび上がってくることがあります。
クラスター分析には階層的クラスター分析と非階層的クラスター分析があります。
非階層的クラスター分析ではあらかじめクラスター数を決めなくてはいけませんが膨大なデータでも比較的計算が早いです。
非階層的クラスター分析の定番はk-means法。非常に簡単に実装できるんですよー!
クラスター分析に関してはこちらの記事にまとめていますので良ければご覧ください!
主成分分析
主成分分析は次元削減のために用いられることが多い手法です。
イメージ的にはクラスター分析に近いのですが、クラスター分析がサンプルをカテゴライズしていたのに対して、主成分分析では変数をカテゴライズします。
例えば、各教科の点数があった時(数学・化学・物理・世界史・日本史・英語などなど)それらに主成分分析をかけることによって、変数をいくつかにまとめあげることができます。
この場合、理系・文系というように分けられることが想像できます。
主成分分析により次元圧縮をしてからクラスター分析をすることなども方法として考えられます。
主成分分析に関してはこちらにまとめています!
教師なしでもありでもない強化学習
実は、教師あり学習でも教師なしでもない強化学習という手法があります。
強化学習は、昨今最も注目を集めている分野です。
教師あり学習と似ていますが、教師あり学習は全ての変数(特徴量)に対してフィードバックがありますが、強化学習は最終的な結果にのみフィードバックをします。
それを強化学習の世界では報酬と言いますが、報酬をたくさんもらえるように最適化すると最終的に精度の高いモデルが構築されるというイメージです。
まだまだビジネスの世界への適応例は少ない手法です。
強化学習については以下の記事にまとめています!
教師あり学習と教師なし学習 まとめ
本記事では主に、教師あり学習と教師なし学習の違いについて見てきました。
時と場合によって教師あり学習と教師なし学習を使い分けましょう!
クラスター分析をしてラベルを作ったあとにそれらを目的変数として教師あり学習を行うなどの組み合わせ技などもあります。
機械学習・統計学・データサイエンス全般についてもっと学びたい方は以下の記事でまとめていますのでチェックしてみてください!
またAIデータサイエンスを網羅的に学べるスクール「スタアカ(スタビジアカデミー)」を当メディアが運営しております!是非のぞいてみてください!
イラスト出典:Illustration by Stories by Freepik