こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は相関係数と共分散について解説していきます!
相関係数・共分散とは「二組の対応するデータの関係性」と定義されています。
相関係数あるいは共分散を見ることで、二組の対応しているデータ同士がどのような挙動を行うか見ることができます。
この記事では、共分散の定義と相関係数との関係について解説します!
・共分散の定義について解説!
・共分散と相関係数の関係について解説!
共分散の求め方について解説!
早速、共分散を見ていきましょう!2つのデータ\(x,y\)の共分散の求め方は以下の通りとなります。
\(cov(x,y) = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})\)
この式は「\(x\)の偏差と\(y\)の偏差を掛けた平均」と考えれられますね!
なぜこの式が2組の対応したデータの関係性を表すのでしょうか?これを図で見てみましょう!
この図を見ると、共分散が正の時は「\(x\)が大きいときは\(y\)も大きい」、共分散が0に近いときは「\(x\)と\(y\)には関係性がない」、共分散が負の時は「\(x\)が小さいときは\(y\)は大きい」と分かりますね!
確率変数\(X,Y\)としたときの共分散の式も見ておきましょう!
\(Cov(X,Y) = E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)\)
共分散と相関係数との関係について解説!
次に共分散と相関係数との関係について解説します。
相関係数について勉強した人は、相関係数は共分散と同様「二組の対応したデータの関係性」と理解していると思いますが、どのような点が異なるのでしょうか?
共分散の弱点として「二組の対応したデータの単位が異なると解釈が難しい」という問題が挙げられます。図で見てみましょう!
このように100点満点のテスト同士で見た共分散と10点満点で見た共分散は全く異なる値になることがわかると思います!このように単位が変動すると共分散の値も異なるため注意が必要です。
この共分散の弱点を克服したものが相関係数です。相関係数の式は以下の通りです。
\(ρ(X,Y) = \frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}\)
この式を見ると相関係数は共分散を各データの標準偏差で割っていることが分かりますね!実際、各データの標準偏差で割ることで相関係数は\(-1と1\)の間で変化するようになるため、上記の問題が解消されます!
共分散 まとめ
本記事では共分散についてまとめました!
共分散とかかわりが深い偏相関係数や平均値はこちらの記事を見てみましょう!
また相関係数と混同されやすい因果効果についても見ると良いでしょう!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!