統計学

決定係数(R2)・自由度調整済み決定係数(R**2)の求め方をわかりやすく解説

決定係数 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、決定係数と自由度調整済み決定係数について解説してきます。決定係数とは「回帰式の予測精度の指標」、自由度調整済み決定係数は「説明変数の数を考慮した決定係数」と定義されています。これらの指標は主に回帰分析で使われており、モデルの予測精度を表しています。今回は決定係数・自由度調整済み決定係数の定義と式について解説していきます。

こんにちは!

スタビジ編集部です!

今回は決定係数と自由度調整済み決定係数について解説していきます!

決定係数は「回帰式の予測精度の指標」、自由度調整済み決定係数は「説明変数の数を考慮した決定係数」と定義されています。

決定係数・自由度調整済み決定係数は回帰分析で用いられる指標であり、データに対する回帰式の当てはまりの良さを表しています。

ウマたん
ウマたん
決定係数・自由度調整済み決定係数は非常に便利であるため、これらの意味と成り立ちについて学んでいきましょう!

この記事では、決定係数と自由度調整済み決定係数について解説していきます!

・決定係数について解説!
・自由度調整済み決定係数について解説!

決定係数・自由度調整済み決定係数については以下の動画でも解説しているのであわせてチェックしてみてください!

決定係数について解説!

stories Memory storage

それでは決定係数について解説していきます!

決定係数とは「回帰式の予測精度の指標」と定義されています。つまり自分で作った回帰モデルが、実際のデータにどれだけ当てはまっているかを示しています。

決定係数は一般的に\(R^{2}\)と表し、0~1までの値をとります。1に近いほど、回帰式の当てはまりの良さが良いことを意味しています!

ここから決定係数がどのように成立しているか見ていきましょう!決定係数にでは全変動・回帰変動・残差変動を求める必要があります。

変動

\(y_{i}\)は実際のデータ、\(\bar{y}\)は平均値、\(\hat{y_{i}}(=\hat{β_{0}}+\hat{β_{1}}x_{i})\)は回帰式から算出された予測値を表しています。

全変動は「実際のデータと平均値の差」、回帰変動は「予測値と平均値の差」、残差変動は「実際のデータと予測値の差」を意味しており、二乗和として算出します。

\(全変動:\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}\)

\(回帰変動:\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}\)

\(残差変動:\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}\)

ウマたん
ウマたん
ここから全変動=回帰変動+残差変動となっていることを証明するよ!

ここから全変動を以下のように式展開していきます!

\(\sum_{i=1}^{n}(y_{i}-\bar{y})^{2} =\)

\(\sum_{i=1}^{n}((y_{i}-\hat{y_{i}})+(\hat{y_{i}}-\bar{y}))^{2}=\)

\(\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2} + \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2} + 2\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})(\hat{y_{i}}-\bar{y})\)

この時、残差\(e_{i}=(y_{i}-\hat{y_{i}})\)としたとき、残差の性質を用いてさらに展開していきます。残差の性質は以下の通りです。

\(\sum_{i=1}^{n}e_{i}=0\)

\(\sum_{i=1}^{n}x_{i}e_{i}=0\)

したがって…

\(2\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})(\hat{y_{i}}-\bar{y})=2\sum_{i=1}^{n}e_{i}(\hat{y_{i}}-\bar{y})=\)

\(2\sum_{i=1}^{n}e_{i}((\hat{β_{0}}+\hat{β_{1}}x_{i})-\bar{y})=2((\hat{β_{0}}-\bar{y})\sum_{i=1}^{n}e_{i} + \hat{β_{1}}\sum_{i=1}^{n}x_{i}e_{i})=0\)

これを先ほどの式に代入すると、全変動=回帰変動+残差変動と示すことができましたね!

\(\sum_{i=1}^{n}(y_{i}-\bar{y})^{2} = \sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}+\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}\)

これによって回帰変動は全変動のうち、回帰式で説明できる部分を表していると考えることができます!

これを利用した指標がずばり決定係数\(R^{2}\)であり、以下の式で表すことができます!

\(R^{2}=\frac{回帰変動}{全変動}=1-\frac{残差変動}{全変動}=\frac{\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}=1-\frac{\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}}{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}\)

自由度調整済み決定係数について解説!

About me

先ほど求めた決定係数は「説明変数の数が多いほど1に近づく性質」を持っています。つまり説明変数の数が異なる回帰モデルを比較する際、決定係数による比較で優劣を決めてはいけないことを意味します。

そのような点を改良した決定係数こそが自由度調整済み決定係数\(R^{*2}\)となります!\(n\)はサンプルサイズ、\(k\)は説明変数の数とします。

\(R^{*2}=1-\frac{\frac{\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2}}{n-k-1}}{\frac{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}{n-1}}\)

こちらも決定係数と同様、0~1の範囲であり、1に近いほどデータに対する当てはまりが良いと考えることができます!

決定係数と自由度調整済み決定係数 まとめ

Happy

本記事では決定係数と自由度調整済み決定係数についてまとめました!

今回は残差にかなり着目しましたが、誤差という概念もあるためそれらとの違いについて理解する必要もありますので、こちらの記事も見てみましょう!

残差 アイキャッチ
回帰分析の残差の求め方について解説!誤差との違いと残差プロットについて分かりやすく!当サイト【スタビジ】の本記事では、残差について解説してきます。残差とは「実測値と予測値の差分」と定義されています。残差が大きいデータの場合、適切な手法を適用しなければ間違った推定を行ってしまうため、非常に重要な概念となります。今回は残差の定義と誤差との違い、残差プロットについて解説します!...

また回帰分析について詳しく書いた記事もありますので、そちらもご覧ください!

回帰分析
回帰分析の理論とRでの実装!当サイト【スタビジ】の本記事では、統計学・データサイエンスの基本である回帰分析について理論とRでの実装を見ていきます。回帰分析についてしっかりおさえておくことで機械学習など高度な手法についても理解が深まります。...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

当メディアでは、データサイエンティストの経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組み合わせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら