統計学

【3分で分かる】マハラノビス距離って何!?分かりやすく解説!

マハラノビス距離
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、マハラノビス距離という統計学・データサイエンスにおいて非常に重要な距離の概念について解説していきます!普段私達が使っている距離の概念はユークリッド距離と呼ばれますが、統計学では相関関係を考慮した距離であるマハラノビス距離がよく利用されるんです!

こんにちは!

消費財メーカーでデータサイエンティストやデジタルマーケターみたいなことをやっているウマたん(@statistics1012)です!

マハラノビス距離という距離をみなさん聞いたことがありますでしょうか?

あまり普段の生活では聞き慣れない距離の概念ですが、実はデータサイエンスの世界では非常に重要な距離なんです!

ロボたん
ロボたん
ま、まはらのびす・・・?聞いたことないなー・・
ウマたん
ウマたん
普段生活していても聞かない距離の概念だよね!ただ統計学の世界では重要な距離の概念なので是非おさえておこう!

そこでこの記事では、そんなマハラノビス距離について簡単に分かりやすく解説していきたいと思います!

マハラノビス距離については以下の動画でも解説しています!

マハラノビス距離とは

まずはじめにマハラノビス距離とは。

普段多くの人が使っている一般的な距離の概念は実はユークリッド距離と言います。

ピタゴラスの定理でお馴染みのこのような距離ですね。

ユークリッド距離

X座標が0でY座標が3のプロットとX座標が0でY座標が4のプロットだとユークリッド距離は3^2+4^2の平方根で5になりますね!

$$ \sqrt{3^2+4^2}=\sqrt{5^2} $$

このユークリッド距離はデータのばらつきを一切考慮しません。

一方でマハラノビス距離は、データの相関関係を考慮した上で距離を算出します。

例えば、体重と身長の2変数で考えてみましょう!

身長を縦軸に体重を横軸に取りましょう。

この時、オレンジの点が2つありますよね。

どちらが異常でしょうか?

視覚的に見るとあきらかに左の点ですね。

ただ、この2つの点は全体の中心点からのユークリッド距離は一緒なのです。

すなわちユークリッド距離で異常を判断するのは妥当ではない!!ということがわかりますね!

そこで相関関係を考慮したマハラノビス距離の登場です!

数式で書くと以下のようになりますが、要はマハラノビス距離は通常の距離の計算に相関関係を付与するということ。

\begin{eqnarray*}
D(X,Y)&=& \sqrt{(X-Y)^{T}{\Sigma}^{-1}(X-Y)}
\end{eqnarray*}

真ん中の行列は分散共分散行列と呼び、各変数間の分散と共分散の値が行列で並んだものです。

余談なのですが、マハラノビス距離はマハラノビスというインドの天才統計学者によって考えられました。

実はあの天才数学者ラマヌジャンマハラノビスは6歳差でケンブリッジでも交流があったそうです。

マハラノビス距離はどんな場面で使うの?

Stories office

それでは、そんなマハラノビス距離はどんな場面で使うのでしょうか?

まずは古くから品質工学などの分野で異常検知に利用されるホテリング管理図

ホテリング管理図 この記事では、管理図の原点であり、今では様々な手法の土台となっているホテリング管理図について見ていきたいと思います。 ホテリン...

ホテリング管理図では

Step1:このマハラノビス距離の考え方を使って異常を検出します。
Step2:正常期のサンプルを基にマハラノビス距離を求めて正常空間の閾値を求めます。
Step3:その閾値を超えた場合、異常とみなすという手法です。

またこのマハラノビス距離という考え方は主成分分析の考え方に近いです。

主成分分析
主成分分析とは?簡単な説明とPythonでの実装!当サイト【スタビジ】の本記事では、実務の基礎分析にて使われることの多い主成分分析について詳しく見ていきます。最後にはカンタンなPythonでの実装も載せていますのでぜひ参考にしてみてください!...

主成分分析では、ばらつきの大きい部分から順番に主成分軸として選び、その軸でデータをスケールしますが、

スケール後のユークリッド距離はマハラノビス距離そのものになります。

マハラノビス距離 まとめ

ここまででマハラノビス距離について解説してきました!

マハラノビス距離はすなわち相関関係を考慮した距離なんだな!ということが分かっていただければとりあえずはOKです!

ロボたん
ロボたん
なるほどー!こういう距離の概念があるのかー!
ウマたん
ウマたん
実は統計学の基本的な手法に利用されているんだよー!

以下にマハラノビス距離について簡単にまとめておきましょう!

・一般的によく使われている距離はユークリッド距離と呼ばれる
・マハラノビス距離は相関関係を考慮した距離である
・異常検知のホテリング管理図や主成分分析などに用いられる考え方である

以下の記事で統計学やデータサイエンスの勉強方法についてまとめていますのでよければチェックしてみてください!

【5分で分かる】データサイエンティストに必要なスキルと独学勉強ロードマップ!当サイト【スタビジ】の本記事では、データサイエンティストに求められるスキルとそれを身に付けるための勉強法について徹底的にまとめていきます!入門者でも、しっかりデータサイエンティストについて理解しある程度独学で駆け出しの状態までいけることを目指します。...
統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...

また統計学やデータサイエンスを体系的に身につけたい方におすすめなのがデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:980円/月
プレミアムプラン:98,000円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

その他のデータサイエンスを勉強できるスクールやサイトについては、こちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら