多変量解析

機械学習と統計学の違いについてモノ申す!!

こんにちは!デジタルマーケターのウマたんです!

大学院時代は統計学専攻で、伝統的な統計学から割と最近の機械学習まで扱っていました。

みなさんは、機械学習と聞くとどんなイメージを持ちますか?

ビックデータ時代に台頭してきた手法?
AIに使われている手法?

割と最近の手法というイメージを持つのではないでしょうか?

それでは、重回帰分析は機械学習手法でしょうか?

機械学習という言葉は便利なので様々なところで使われており、言葉が独り歩きしている感もあります。機械学習使っとけばいいんだ!的な風潮は危ないですね。

「統計ラボ」でも機械学習手法と統計学は明確に分けております。統計学に端を発する手法群は多変量解析と呼ばれることが多いです。

そんなイマイチ境目の分からない機械学習統計学(多変量解析)の違いについて見ていきましょう!

ウマたん
ウマたん
機械学習は便利な言葉だから、言葉に騙されないように注意しないとね!

機械学習と統計学の違い

機械学習と統計学の大きな違いは、目的の違いにあります。

・機械学習手法は精度追求型
・統計学的手法は解釈追求型

どういうことか見ていきましょう。

機械学習手法は精度追求型

機械学習手法は徹底的に精度を追い求めます。高いパフォーマンスを出せば出すほど良いのです。

そのため、アルゴリズムが複雑で中身がブラックボックスであったとしても問題ありません。精度が少しでも上がれば良いのです。

逆に予測精度を追求することで、データの構造は可視化しにくくなっています。そのため、出てきた結果に対して解釈の余地を与えられないことが多いです。

機械学習手法では、データの型を特に気にしませんのでどんな構造のデータでもとにかくアルゴリズムに突っ込むとそれなりの結果が出てきます(各種パラメータチューニングをする必要はあります)

統計学的手法は解釈追求型

一方で、統計学的アプローチは現状のデータの構造を可視化し、解釈を与えることの意味を見出します。

そのため、なるべくアルゴリズムは単純かつ分かりやすいモノを好みます。

また統計学的手法では、データの型をあらかじめ想定してモデルを組みます(パラメトリックモデル)。

そのためデータが想定したモデルにぴったり合致した時の威力はすさまじいモノがあります。

実際にビジネスに活かすことが出来るのは解釈追求型の統計学的手法であることも多いです。

ただ、得られた結果から相関関係は分かりますが因果関係がほぼ分からないということを念頭に置いておくことが大事です。

ほとんどの場合、因果関係は分かりません。因果関係を苦労して探して紐解いたころには因果は変わってしまっているかもしれないのです。

基本的には、相関関係から導き出したビジネスソリューションに対して成功したら、やはり因果関係があったんだねと証明できることになります。

機械学習手法と統計学的手法の使い分け

それではどんな時に機械学習手法を用いて、どんな時に統計学的手法を用いると良いのでしょうか?

機械学習手法を用いる場面

先ほども述べましたが機械学習は精度追求型です。

そのため、データの構造はよく分からないけどとりあえず予測精度が高くなれば良い!という場面で好まれます。

例えば、ユーザーレコメンドや広告配信アロケーションなどロジックは分からなくても精度さえ高くなれば良いという場面で用いられます。

統計学(多変量解析)を用いる場面

データの構造を紐解いてそこから新たな知見を導き出したい場合、統計学的アプローチが用いられることが多いです。

また他人に提案・報告する上でも説明しやすいので、上位レイヤーへの提案やコンサルから事業会社への提案は、統計学的アプローチを使っていることが多いです。

また機械学習に比べるとアルゴリズムが単純で計算スピードも速いので、簡単な解析は統計学的アプローチを用いたほうが良いです。

機械学習手法と統計学的手法の種類

それでは最後に機械学習手法にはどのような手法があるのか、統計学的手法にはどのような手法があるのか見ていきたいと思います。

正直、境目が微妙な手法もありますのでご了承ください。

機械学習手法

機械学習手法の種類は数え上げたらキリがありませんので、ここでは有名どころを挙げておきます。

ランダムフォレスト

ランダムフォレストは、決定木とバギングを組み合わせた手法でそれなりの精度を簡単にたたき出してくれます。

それほど計算負荷もかからないので、ちょっとしたデータを解析するのにはもってこいです。

ランダムフォレストに関してはこちらの記事を参考にしてみてください。

ランダムフォレストこんにちは! 今回は、汎化能力の非常に高い最強手法ランダムフォレストについてみていきましょう! 今でこそディープラーニングや...

SVM(サポートベクターマシン)

SVMもランダムフォレスト同様の精度が期待できる優秀な手法です。

応用の幅が広く様々な分野で使われています。計算負荷は高めです。

SVMについて詳しくはこちら!

SVM(サポートベクターマシン)とは?特徴とRによる実装!こんにちは!デジタルマーケターのウマたんです! 機械学習手法の中でも汎化能力が高いとされ使われることの多いSVM(サポートベクター...

ニューラルネットワーク

ニューラルネットワークはディープラーニングの基となった手法です。ニューラルネットワーク単体ではそれほど高い精度は見込めませんが、中間層を増やせば増やすほど学習が進み(ディープラーニングに近づき)精度が高くなります。その分、計算負荷も上昇します。

ニューラルネットワークに関して詳しくはこちら!

ニューラルネットワークとは?仕組みとRでの実装!こんにちは!デジタルマーケターのウマたんです! 最近巷で話題のディープラーニング。 そんなディープラーニングの基となっている...

XGboost

XGboostは、決定木と勾配ブースティングを組み合わせた手法で相当高い精度が見込めます。

教師あり学習の中では、今でも十分最前線で使われている優秀な手法になっております。

XGboostに関しては以下の記事をご覧ください!

XGboostとは?理論とRでの実践方法!こんにちは!デジタルマーケターのウマたんです! Kaggleなどのデータ解析コンペでも頻繁に用いられているXGboost。 ...

統計学的手法

統計学的手法もいくつか種類がありますので、ここでは押さえておきたい手法群だけピックアップしておきます。

重回帰分析(線形回帰)

重回帰分析は最も一般的であり、アルゴリズムも分かりやすい手法。

回帰系手法の中で最も分かりやすく、結果の解釈も容易。

実装が容易で、実務の場でも良く用いられている手法の1つです。

回帰分析に関してはこちらの記事にまとめています。

回帰分析の理論とRでの実装! こんにちは! この記事では最も一般的でビジネスシーンでもよく使われる「回帰分析」について説明していきます! データ解...

主成分分析

主成分分析は次元圧縮の場面で使われます。主成分分析を用いることで、複数ある変数をいくつかの変数で表現することができます。

主成分分析に関しては以下の記事にまとめています!

主成分分析とは?簡単な説明とPythonでの実装!ながこんにちは!デジタルマーケターのウマたんです! データ分析を行っていると以下のような場面にぶち当たることがあるのではないでしょ...

クラスター分析

クラスター分析は、サンプルをいくつかの集団にグループ分けすることができる手法であり、教師なし学習として幅広く使われています。

クラスター分析には階層的クラスター分析と非階層的クラスター分析がありますが、大量のデータセットに対して用いるなら非階層的クラスター分析がオススメです。

こちらの記事にまとめています。

クラスター分析 こんにちは!デジタルマーケターのウマたんです! 大量のデータセットをいくつかのグループ・セグメントに分けたい! そん...

機械学習と統計学の違い まとめ

機械学習手法と統計学の違いについて見きました。正直「この手法は機械学習で、この手法は統計学的手法だ」ということを覚えることには何の意味もありません。

機械学習と統計学的アプローチでは目的が違うのだということを念頭に置き、使い分けていきましょう。

・機械学習手法は精度追求型
・統計学的手法は解釈追求型

ウマたん
ウマたん
機械学習手法も統計学的アプローチもどちらも使いこなせるようになっておこう!

機械学習と統計学に詳しくはこちらの記事をご覧ください!

【入門者向け】機械学習とは?機械学習の種類とRでの実装!こんにちは!デジタルマーケターのウマたんです!統計学の修士号を持っており、大学時代はデータサイエンスを主に専攻していました。 AI...
統計学とは?こんにちは!統計学専攻で修士課程卒業後、都内でデジタルマーケターやってるウマたんです。 統計学というとどんなイメージを持つでしょう...