こんにちは!
消費財メーカーでデータサイエンティストやデジタルマーケターみたいなことをやっているウマたん(@statistics1012)です!
マハラノビス距離という距離をみなさん聞いたことがありますでしょうか?
あまり普段の生活では聞き慣れない距離の概念ですが、実はデータサイエンスの世界では非常に重要な距離なんです!
そこでこの記事では、そんなマハラノビス距離について簡単に分かりやすく解説していきたいと思います!
マハラノビス距離については以下の動画でも解説しています!
マハラノビス距離とは
まずはじめにマハラノビス距離とは。
普段多くの人が使っている一般的な距離の概念は実はユークリッド距離と言います。
ピタゴラスの定理でお馴染みのこのような距離ですね。
X座標が0でY座標が3のプロットとX座標が0でY座標が4のプロットだとユークリッド距離は3^2+4^2の平方根で5になりますね!
$$ \sqrt{3^2+4^2}=\sqrt{5^2} $$
このユークリッド距離はデータのばらつきを一切考慮しません。
一方でマハラノビス距離は、データの相関関係を考慮した上で距離を算出します。
例えば、体重と身長の2変数で考えてみましょう!
身長を縦軸に体重を横軸に取りましょう。
この時、オレンジの点が2つありますよね。
どちらが異常でしょうか?
視覚的に見るとあきらかに左の点ですね。
ただ、この2つの点は全体の中心点からのユークリッド距離は一緒なのです。
すなわちユークリッド距離で異常を判断するのは妥当ではない!!ということがわかりますね!
そこで相関関係を考慮したマハラノビス距離の登場です!
数式で書くと以下のようになりますが、要はマハラノビス距離は通常の距離の計算に相関関係を付与するということ。
\begin{eqnarray*}
D(X,Y)&=& \sqrt{(X-Y)^{T}{\Sigma}^{-1}(X-Y)}
\end{eqnarray*}
真ん中の行列は分散共分散行列と呼び、各変数間の分散と共分散の値が行列で並んだものです。
余談なのですが、マハラノビス距離はマハラノビスというインドの天才統計学者によって考えられました。
実はあの天才数学者ラマヌジャンとマハラノビスは6歳差でケンブリッジでも交流があったそうです。
マハラノビス距離はどんな場面で使うの?
それでは、そんなマハラノビス距離はどんな場面で使うのでしょうか?
まずは古くから品質工学などの分野で異常検知に利用されるホテリング管理図
ホテリング管理図では
Step1:このマハラノビス距離の考え方を使って異常を検出します。
Step2:正常期のサンプルを基にマハラノビス距離を求めて正常空間の閾値を求めます。
Step3:その閾値を超えた場合、異常とみなすという手法です。
またこのマハラノビス距離という考え方は主成分分析の考え方に近いです。
主成分分析では、ばらつきの大きい部分から順番に主成分軸として選び、その軸でデータをスケールしますが、
スケール後のユークリッド距離はマハラノビス距離そのものになります。
マハラノビス距離 まとめ
ここまででマハラノビス距離について解説してきました!
マハラノビス距離はすなわち相関関係を考慮した距離なんだな!ということが分かっていただければとりあえずはOKです!
以下にマハラノビス距離について簡単にまとめておきましょう!
・一般的によく使われている距離はユークリッド距離と呼ばれる
・マハラノビス距離は相関関係を考慮した距離である
・異常検知のホテリング管理図や主成分分析などに用いられる考え方である
以下の記事で統計学やデータサイエンスの勉強方法についてまとめていますのでよければチェックしてみてください!
また統計学やデータサイエンスを体系的に身につけたい方におすすめなのがデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
その他のデータサイエンスを勉強できるスクールやサイトについては、こちらを参考にしてみてください!