多変量解析

教師あり学習と教師なし学習の違いとは?

こんにちは!消費財メーカーでデジタルマーケティングを担当しているウマたんです!統計学の修士号を持っており、大学時代はデータサイエンスを主に専攻していました。

データサイエンスの世界で登場するのが、「教師あり学習と教師なし学習」という概念。ディープラーニングが台頭してきたことにより、さらに良く聞くようになってきました。

今回は、そんな教師あり学習と教師なし学習の違いについてまとめていきます。

教師あり学習と教師なし学習

 

ウマたん

教師あり学習ってなに?

シンエー

言葉を分解してみようか。まず、学習とはデータを解析して何らかのモデルを作ることだよ。次に、教師とは答えとなるデータのことだよ。つまり、各サンプルに対して与えられている正解データを基準にしてモデルを作ることを教師あり学習というよ。

ウマたん

ちょっとイメージがしづらいなあ。

シンエー

具体例として下のようなデータを考えてみよう!

シンエー

このデータを二つのグループに分類することを考えてみよう。どう分類するかな?分類する境界線を引いてみると・・・

ウマたん

うーん、データの集まり方で分類するなら右で、赤と黒で分類するなら左のような感じかな?

シンエー

いいね。左のように分類するときには、x1とx2の情報以外に赤と黒というもう一つの情報を使ったね。これが教師あり学習だよ。一方で、右のように分類するときにはx1とx2の集まり方のみで決めたね。これが教師なし学習だよ。

ウマたん

x1とx2のデータのみで決めるか、特徴を表す教師データを使って決めるかということか!

シンエー

そういうことだね。教師あり学習の例は回帰分析などがあり、教師なし学習の例は主成分分析などがあるんだ。色々勉強していこう!

そう、言葉から何となくイメージが出来るように教師あり学習はあらかじめ決められたラベルが付いていて、教師なし学習はラベルが付いていないんです。

教師あり学習・・・ラベルあり
教師なし学習・・・ラベルなし

統計の言葉で言うと、目的変数が定義された解析を行う場合、それは教師あり学習。目的変数がない場合は教師なし学習です。

例えば、先ほどの例だと、X1とX2という変数に対して赤黒という質的変数が存在するのですが、とくに赤黒というラベルを気にせず目的変数を定義せずに解析を行う場合は教師なし学習になるんです。

教師あり学習の場合は、答えが分かっている教師データを基にモデルを作って、それを答えの分からない未知データに当てはめます。

教師あり学習の例

続いて、教師あり学習の例を見ていきましょう!

回帰分析

教師あり学習の定番は、回帰分析。

回帰分析では、ある目的変数と説明変数の関係を見ていくことになります。

元々正解の分かっているデータから回帰モデルを作って、それを新たなデータに当てはめます。

アイスクリームの需要予測などが良い例。アイスクリームの売れた個数(これがいわゆる教師ラベル)をその日の温度や湿度などから予測するモデルを作ります。

正解が分かっている教師データが与えられているので教師あり学習になります。

高度な機械学習手法(ランダムフォレストやSVM)なども回帰の分野に入りますので教師あり学習です。

回帰分析についてはこちらの記事にまとめていますので良ければご覧ください!

回帰分析 回帰分析ってなに? 回帰分析についてざっくり説明していきます。 回帰分析とは「ある変数を用いて他の変数を説明(予測)するモデルを...

判別分析

回帰分析が、量的変数を目的変数として扱うのに対して判別分析は質的変数を目的変数として扱います。

先ほどの赤黒の例などは、赤というラベルと黒というラベルが与えられており、それらは質的変数なので判別分析の分野ですね。

判別分析系のように質的変数を目的変数として扱うタイプとしては先ほどの機械学習手法や決定木などの手法も当てはまります。

教師なし学習

続いて教師なし学習の例を見ていきましょう!

クラスター分析

クラスター分析は教師なし学習の中でもっとも有名ですね!

クラスター分析では、正解となるラベルが与えられていません。膨大なデータの中からあるパターンを見つけ出す手法になります。

例えば、顧客の行動データなどをクラスター分析にかけることによって、そのままでは見えてこない顧客セグメントが浮かび上がってくることがあります。

クラスター分析には階層的クラスター分析と非階層的クラスター分析があります。非階層的クラスター分析ではあらかじめクラスター数を決めなくてはいけませんが膨大なデータでも比較的計算が早いです。

クラスター分析に関してはこちらの記事にまとめていますので良ければご覧ください!

クラスター分析 こんにちは!デジタルマーケターのウマたんです! 大量のデータセットをいくつかのグループ・セグメントに分けたい! そん...

主成分分析

主成分分析は次元削減のために用いられることが多い手法です。イメージ的にはクラスター分析に近いのですが、クラスター分析がサンプルをカテゴライズしていたのに対して、主成分分析では、数ある変数をカテゴライズします。

例えば、各教科の点数があった時(数学・化学・物理・世界史・日本史・英語などなど)それらに主成分分析をかけることによって、変数をいくつかにまとめあげることができます。

この場合、理系・文系というように分けられることが想像できます。

主成分分析により次元圧縮をしてからクラスター分析をすることなども方法として考えられます。

教師あり学習と教師なし学習 まとめ

教師あり学習と教師なし学習の違いについて見てきました。

時と場合によって教師あり学習と教師なし学習を使い分けましょう!

クラスター分析をしてラベルを作ったあとにそれらを目的変数として教師あり学習を行うなどの組み合わせ技などもあります。

是非色々と試してみてください!