こんにちは!
スタビジ編集部です!
今回は決定係数と自由度調整済み決定係数について解説していきます!
決定係数は「回帰式の予測精度の指標」、自由度調整済み決定係数は「説明変数の数を考慮した決定係数」と定義されています。
決定係数・自由度調整済み決定係数は回帰分析で用いられる指標であり、データに対する回帰式の当てはまりの良さを表しています。
この記事では、決定係数と自由度調整済み決定係数について解説していきます!
・決定係数について解説!
・自由度調整済み決定係数について解説!
決定係数・自由度調整済み決定係数については以下の動画でも解説しているのであわせてチェックしてみてください!
決定係数について解説!
それでは決定係数について解説していきます!
決定係数とは「回帰式の予測精度の指標」と定義されています。つまり自分で作った回帰モデルが、実際のデータにどれだけ当てはまっているかを示しています。
決定係数は一般的に\(R^{2}\)と表し、0~1までの値をとります。1に近いほど、回帰式の当てはまりの良さが良いことを意味しています!
ここから決定係数がどのように成立しているか見ていきましょう!決定係数にでは全変動・回帰変動・残差変動を求める必要があります。
\(y_{i}\)は実際のデータ、\(\bar{y}\)は平均値、\(\hat{y_{i}}(=\hat{β_{0}}+\hat{β_{1}}x_{i})\)は回帰式から算出された予測値を表しています。
全変動は「実際のデータと平均値の差」、回帰変動は「予測値と平均値の差」、残差変動は「実際のデータと予測値の差」を意味しており、二乗和として算出します。
\(全変動:\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}\)
\(回帰変動:\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}\)
\(残差変動:\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}\)
ここから全変動を以下のように式展開していきます!
\(\sum_{i=1}^{n}(y_{i}-\bar{y})^{2} =\)
\(\sum_{i=1}^{n}((y_{i}-\hat{y_{i}})+(\hat{y_{i}}-\bar{y}))^{2}=\)
\(\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2} + \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2} + 2\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})(\hat{y_{i}}-\bar{y})\)
この時、残差\(e_{i}=(y_{i}-\hat{y_{i}})\)としたとき、残差の性質を用いてさらに展開していきます。残差の性質は以下の通りです。
\(\sum_{i=1}^{n}e_{i}=0\)
\(\sum_{i=1}^{n}x_{i}e_{i}=0\)
したがって…
\(2\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})(\hat{y_{i}}-\bar{y})=2\sum_{i=1}^{n}e_{i}(\hat{y_{i}}-\bar{y})=\)
\(2\sum_{i=1}^{n}e_{i}((\hat{β_{0}}+\hat{β_{1}}x_{i})-\bar{y})=2((\hat{β_{0}}-\bar{y})\sum_{i=1}^{n}e_{i} + \hat{β_{1}}\sum_{i=1}^{n}x_{i}e_{i})=0\)
これを先ほどの式に代入すると、全変動=回帰変動+残差変動と示すことができましたね!
\(\sum_{i=1}^{n}(y_{i}-\bar{y})^{2} = \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}+\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}\)
これによって回帰変動は全変動のうち、回帰式で説明できる部分を表していると考えることができます!
これを利用した指標がずばり決定係数\(R^{2}\)であり、以下の式で表すことができます!
\(R^{2}=\frac{回帰変動}{全変動}=1-\frac{残差変動}{全変動}=\frac{\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}=1-\frac{\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}\)
自由度調整済み決定係数について解説!
先ほど求めた決定係数は「説明変数の数が多いほど1に近づく性質」を持っています。つまり説明変数の数が異なる回帰モデルを比較する際、決定係数による比較で優劣を決めてはいけないことを意味します。
そのような点を改良した決定係数こそが自由度調整済み決定係数\(R^{*2}\)となります!\(n\)はサンプルサイズ、\(k\)は説明変数の数とします。
\(R^{*2}=1-\frac{\frac{\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}}{n-k-1}}{\frac{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}{n-1}}\)
こちらも決定係数と同様、0~1の範囲であり、1に近いほどデータに対する当てはまりが良いと考えることができます!
決定係数と自由度調整済み決定係数 まとめ
本記事では決定係数と自由度調整済み決定係数についてまとめました!
今回は残差にかなり着目しましたが、誤差という概念もあるためそれらとの違いについて理解する必要もありますので、こちらの記事も見てみましょう!
また回帰分析について詳しく書いた記事もありますので、そちらもご覧ください!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
当メディアでは、データサイエンティストの経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!