統計学

【3分で分かる】マハラノビス距離って何!?分かりやすく解説!

マハラノビス距離
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、マハラノビス距離という統計学・データサイエンスにおいて非常に重要な距離の概念について解説していきます!普段私達が使っている距離の概念はユークリッド距離と呼ばれますが、統計学では相関関係を考慮した距離であるマハラノビス距離がよく利用されるんです!

こんにちは!

消費財メーカーでデータサイエンティストやデジタルマーケターみたいなことをやっているウマたん(@statistics1012)です!

マハラノビス距離という距離をみなさん聞いたことがありますでしょうか?

あまり普段の生活では聞き慣れない距離の概念ですが、実はデータサイエンスの世界では非常に重要な距離なんです!

ロボたん
ロボたん
ま、まはらのびす・・・?聞いたことないなー・・
ウマたん
ウマたん
普段生活していても聞かない距離の概念だよね!ただ統計学の世界では重要な距離の概念なので是非おさえておこう!

そこでこの記事では、そんなマハラノビス距離について簡単に分かりやすく解説していきたいと思います!

マハラノビス距離とは

まずはじめにマハラノビス距離とは。

普段多くの人が使っている一般的な距離の概念は実はユークリッド距離と言います。

ピタゴラスの定理でお馴染みのこのような距離ですね。

ユークリッド距離

X座標が0でY座標が3のプロットとX座標が0でY座標が4のプロットだとユークリッド距離は3^2+4^2の平方根で5になりますね!

$$ \sqrt{3^2+4^2}=\sqrt{5^2} $$

このユークリッド距離はデータのばらつきを一切考慮しません。

一方でマハラノビス距離は、データの相関関係を考慮した上で距離を算出します。

例えば、体重と身長の2変数で考えてみましょう!

身長を縦軸に体重を横軸に取りましょう。

この時、オレンジの点が2つありますよね。

どちらが異常でしょうか?

視覚的に見るとあきらかに左の点ですね。

ただ、この2つの点は全体の中心点からのユークリッド距離は一緒なのです。

すなわちユークリッド距離で異常を判断するのは妥当ではない!!ということがわかりますね!

そこで相関関係を考慮したマハラノビス距離の登場です!

数式で書くと以下のようになりますが、要はマハラノビス距離は通常の距離の計算に相関関係を付与するということ。

\begin{eqnarray*}
D(X,Y)&=& \sqrt{(X-Y)^{T}{\Sigma}^{-1}(X-Y)}
\end{eqnarray*}

真ん中の行列は分散共分散行列と呼び、各変数間の分散と共分散の値が行列で並んだものです。

余談なのですが、マハラノビス距離はマハラノビスというインドの天才統計学者によって考えられました。

実はあの天才数学者ラマヌジャンマハラノビスは6歳差でケンブリッジでも交流があったそうです。

マハラノビス距離はどんな場面で使うの?

Stories office

それでは、そんなマハラノビス距離はどんな場面で使うのでしょうか?

まずは古くから品質工学などの分野で異常検知に利用されるホテリング管理図

ホテリング管理図 この記事では、管理図の原点であり、今では様々な手法の土台となっているホテリング管理図について見ていきたいと思います。 ホテリン...

ホテリング管理図では

Step1:このマハラノビス距離の考え方を使って異常を検出します。
Step2:正常期のサンプルを基にマハラノビス距離を求めて正常空間の閾値を求めます。
Step3:その閾値を超えた場合、異常とみなすという手法です。

またこのマハラノビス距離という考え方は主成分分析の考え方に近いです。

主成分分析
主成分分析とは?簡単な説明とPythonでの実装!当サイト【スタビジ】の本記事では、実務の基礎分析にて使われることの多い主成分分析について詳しく見ていきます。最後にはカンタンなPythonでの実装も載せていますのでぜひ参考にしてみてください!...

主成分分析では、ばらつきの大きい部分から順番に主成分軸として選び、その軸でデータをスケールしますが、

スケール後のユークリッド距離はマハラノビス距離そのものになります。

マハラノビス距離 まとめ

ここまででマハラノビス距離について解説してきました!

マハラノビス距離はすなわち相関関係を考慮した距離なんだな!ということが分かっていただければとりあえずはOKです!

ロボたん
ロボたん
なるほどー!こういう距離の概念があるのかー!
ウマたん
ウマたん
実は統計学の基本的な手法に利用されているんだよー!

以下にマハラノビス距離について簡単にまとめておきましょう!

・一般的によく使われている距離はユークリッド距離と呼ばれる
・マハラノビス距離は相関関係を考慮した距離である
・異常検知のホテリング管理図や主成分分析などに用いられる考え方である

以下の記事で統計学やデータサイエンスの勉強方法についてまとめていますのでよければチェックしてみてください!

【入門者向け】データサイエンティストに必要なスキルと独学勉強ロードマップ!当サイト【スタビジ】の本記事では、データサイエンティストに求められるスキルとそれを身に付けるための勉強法について徹底的にまとめていきます!入門者でも、しっかりデータサイエンティストについて理解しある程度独学で駆け出しの状態までいけることを目指します。...
統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!