こんにちは!
スタビジ編集部です!
今回は偏回帰係数・標準偏回帰係数について解説していきます!
偏回帰係数・標準偏回帰係数は回帰分析における変数の係数(回帰係数)の1種であり、普通の回帰係数とは異なる意味を持ったものとなります。
この記事では、偏回帰係数・標準偏回帰係数の意味・定義式について解説していきます!
・偏回帰係数について解説!
・標準偏回帰係数について解説!
以下のYoutube動画で詳しく解説していますのであわせてチェックしてみてください!
偏回帰係数の定義と求め方について解説!
まず偏回帰係数について解説していきます!
偏回帰係数とは「重回帰分析における変数の係数」と定義されています。
もっと詳しく言うと「ある一つの変数以外を固定し、その一つの変数を1単位増加/減少した際に、目的変数がどれだけ増加/減少するか」を意味します。
つまり他の変数の影響を除外したときの変数の重みと考えることができます!
次は求め方について解説します。(ここでは説明変数が2個の場合を考えます)
重回帰分析は最小二乗法による最適化によって偏回帰係数を求めていきます。したがって、残差平方和を最小にする偏回帰係数を求めていきます。
\(S_{e}=\sum_{i=1}^{n}(y_{i}-(\hat{β_{0}}+\hat{β_{1}}x_{i1}+\hat{β_{2}}x_{i2})^{2})\)
この残差平方和\(S_{e}\)を\(\hat{β_{0}},\hat{β_{1}},\hat{β_{2}}\)で偏微分し、最終的には以下のような偏回帰係数が求められます。ただし\(S_{11},S_{12},S_{22},S_{1y},S_{2y}\)は各変数の平方和を示しています。
\(S_{11}=\sum_{i=1}^{n}(x_{i1}-\bar{x_{1}})^{2}\)
\(S_{12}=\sum_{i=1}^{n}(x_{i1}-\bar{x_{1}})(x_{i2}-\bar{x_{2}})\)
\(S_{22}=\sum_{i=1}^{n}(x_{i2}-\bar{x_{2}})^{2}\)
\(S_{y1}=\sum_{i=1}^{n}(x_{i1}-\bar{x_{1}})(y_{i}-\bar{y})\)
\(S_{y2}=\sum_{i=1}^{n}(x_{i2}-\bar{x_{2}})(y_{i}-\bar{y})\)
そして\(\hat{β_{0}},\hat{β_{1}},\hat{β_{2}}\)は以下の通りです!
\(\hat{β_{0}}=\bar{y}-\hat{β_{0}}\bar{x_{1}}-\hat{β_{2}}\bar{x_{2}}\)
\(\hat{β_{1}}=\frac{1}{S_{11}S_{22}-S_{12}^{2}}(S_{22}S_{1y}-S_{12}S_{2y})\)
\(\hat{β_{2}}=\frac{1}{S_{11}S_{22}-S_{12}^{2}}(-S_{12}S_{1y}+S_{11}S_{2y})\)
標準偏回帰係数の定義と求め方について解説!
次は標準偏回帰係数を解説していきますが、その前に偏回帰係数の弱点について解説していきます!
偏回帰係数の弱点はずばり、各変数の偏回帰係数の大小を比較することができない点が挙げられます。
例を見ていきましょう!重回帰式\(y_{i}=β_{1}x_{1}+β_{2}x_{2}+ε_{i}(i=1,2,…,n)\)から偏回帰係数\(\hat{β_{1}},\hat{β_{2}}\)を算出したとします。
説明変数\(x_{1}\)は体重(kg)を意味していますが、\(x_{1}\)の単位をgに変換して求めた偏回帰係数を\(\hat{β’_{1}},\hat{β’_{2}}\)とします。
この時、\(\hat{β’_{1}}=\frac{\hat{β_{1}}}{1000}\), \( \hat{β’_{2}}=\hat{β_{2}}\)が成立することが分かります。
したがって、ある説明変数をa倍したらその係数は\(\frac{1}{a}\)倍になり、sの他の説明変数に影響はないとわかります!
そうなると、「各変数は単位が異なるし、単位を変更すると偏回帰係数の大きさも変化してしまうので偏回帰係数の大小の比較ができない」と考えることができますね!
これを解消したものが標準偏回帰係数となります。
標準偏回帰係数とは「各説明変数・目的変数を標準化した重回帰式で算出された偏回帰係数」と定義されています。
標準化を行うことで各変数の単位がなくなるため、標準偏回帰係数は大小を比較することができます!
次は標準偏回帰係数\(b_{0},b_{1}\)の求め方です。(ここでも説明変数が2個の場合を考えます)
まず各変数に対して標準化を行います。ただし\(\bar{y},\bar{x_{1}},\bar{x_{2}}\)は各変数の平均、\(s_{y},s_{x_{1}},s_{x_{2}}\)は各変数の標準偏差を示しています。
\(u_{iy}=\frac{y_{i}-\bar{y}}{s_{y}},u_{i1}=\frac{x_{i1}-\bar{x_{1}}}{s_{x_{1}}},u_{i2}=\frac{x_{i2}-\bar{x_{2}}}{s_{x_{2}}}\)
これらの標準化された変数を予測式\(\hat{β_{0}}+\hat{β_{1}}x_{i1}+\hat{β_{2}}x_{i2}\)に代入して整理すると…
\(b_{1}=\hat{β_{1}}\frac{s_{x_{1}}}{s_{y}}\)
\(b_{2}=\hat{β_{2}}\frac{s_{x_{2}}}{s_{y}}\)
偏回帰係数・標準偏回帰係数 まとめ
本記事では偏回帰係数、標準偏回帰係数についてまとめました!
今回は回帰分析を使ったので、どのような手法なのか知りたい方はこちらもご覧ください!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
当メディアでは、データサイエンティストの経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!