統計学

共分散の定義・求め方をわかりやすく解説!相関係数との関係も見ていこう!

共分散 相関係数 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、共分散と相関係数について解説してきます。共分散・相関係数とは「二組の対応するデータの関係性」と定義されています。共分散を見ることで、一方のデータの値が上がれば、もう一方のデータの挙動が分かります。今回は共分散の定義と相関係数との関係性について解説します!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

今回は相関係数と共分散について解説していきます!

相関係数・共分散とは「二組の対応するデータの関係性」と定義されています。

相関係数あるいは共分散を見ることで、二組の対応しているデータ同士がどのような挙動を行うか見ることができます。

ウマたん
ウマたん
共分散はデータを見る際に必要な要素となるよ!実際にデータ同士の関係性がわからないとデータ分析の仮説を立てることは難しいからね!そして共分散の弱点を克服したのが相関係数なんだ!

この記事では、共分散の定義と相関係数との関係について解説します!

・共分散の定義について解説!
・共分散と相関係数の関係について解説!

共分散の求め方について解説!

python

早速、共分散を見ていきましょう!2つのデータ\(x,y\)の共分散の求め方は以下の通りとなります。

\(cov(x,y) = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})\)

この式は「\(x\)の偏差と\(y\)の偏差を掛けた平均」と考えれられますね!

なぜこの式が2組の対応したデータの関係性を表すのでしょうか?これを図で見てみましょう!

共分散の見方

この図を見ると、共分散が正の時は「\(x\)が大きいときは\(y\)も大きい」、共分散が0に近いときは「\(x\)と\(y\)には関係性がない」、共分散が負の時は「\(x\)が小さいときは\(y\)は大きい」と分かりますね!

ウマたん
ウマたん
ただしこの関係性はあくまでも「直線的」なものであることに注意だよ!

確率変数\(X,Y\)としたときの共分散の式も見ておきましょう!

\(Cov(X,Y) = E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)\)

共分散と相関係数との関係について解説!

Stories city

次に共分散と相関係数との関係について解説します。

相関係数について勉強した人は、相関係数は共分散と同様「二組の対応したデータの関係性」と理解していると思いますが、どのような点が異なるのでしょうか?

共分散の弱点として「二組の対応したデータの単位が異なると解釈が難しい」という問題が挙げられます。図で見てみましょう!

共分散の弱点

このように100点満点のテスト同士で見た共分散と10点満点で見た共分散は全く異なる値になることがわかると思います!このように単位が変動すると共分散の値も異なるため注意が必要です。

この共分散の弱点を克服したものが相関係数です。相関係数の式は以下の通りです。

\(ρ(X,Y) = \frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}\)

この式を見ると相関係数は共分散を各データの標準偏差で割っていることが分かりますね!実際、各データの標準偏差で割ることで相関係数は\(-1と1\)の間で変化するようになるため、上記の問題が解消されます!

ウマたん
ウマたん
したがって相関係数とは「規格化した共分散」とも言えることがわかるね!

共分散 まとめ

Happy

本記事では共分散についてまとめました!

共分散とかかわりが深い偏相関係数平均値はこちらの記事を見てみましょう!

偏相関係数 アイキャッチ
偏相関係数の求め方!相関係数との違いについてわかりやすく!当サイト【スタビジ】の本記事では、偏相関係数について解説してきます。偏相関係数とは「ある変数の影響を除去したうえでの2変数の相関係数」と定義されています。ある変数の影響があると、2変数の相関係数に何かしらの影響を与えることがあります。したがってデータの関係性を見る際は変数の関係性に注意する必要があります。今回は偏相関係数の定義と相関係数との違いについて解説します!...
中央値・平均値・最頻値
中央値と平均値と最頻値はどう違う!?使い分けや求め方について図解解説!当サイト【スタビジ】の本記事では、中央値・平均値・最頻値について解説していきます!これらの指標はデータの分布に表す非常に重要な指標です!今回は中央値・平均値・最頻値の定義について解説しつつ、これら3つの指標の違いや使い分けの方法、求め方について解説してPythonで実装していきます!...

また相関係数と混同されやすい因果効果についても見ると良いでしょう!

相関関係 因果関係
相関関係と因果関係の違いについて例を挙げながら簡単に解説していく!当サイト【スタビジ】の本記事では、相関関係と因果関係の違いについて具体的な例を挙げながら分かりやすく簡単に解説していきます。相関関係と因果関係はビジネスシーンでつきまとう非常に重要な概念。違いについて明確に理解しておきましょう!...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:980円/月
プレミアムプラン:98,000円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組み合わせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら