こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
ビジネスの世界で頻繁に登場する相関関係。
何気なく使っている人が多いのですが、実は使い方に注意が必要なんです!
・相関関係がある=因果関係があると勘違いをしていないでしょうか?
・相関関係と因果関係の違いを明確に理解していますでしょうか?
ということで、この記事ではそんな相関関係と因果関係の違いについて分かりやすく解説していきます。
目次
相関関係と因果関係の違い
まずは、相関関係と因果関係について見ていきましょう!
相関関係とは
相関関係とは、「あるデータ同士の関係性を数値化したもの」でマイナスの相関からプラスの相関まで-1~+1の範囲で表されます。
たとえばあるブランドのECサイトで、お客さんの
・Webサイトへの年間訪問回数
・年間購入金額
この2つを見ていった時に訪問回数が高ければ高いほど年間購入金額が高くなっていたとします。
そうするとこの2つには正の相関関係があると言えます。
因果関係とは
因果関係とは、「一方の事象が原因でもう一方が結果であると明確に分かっている関係のこと」です。
先ほどの例の場合、訪問回数と購入金額には因果関係があると言えるでしょうか言えないでしょうか。
つまり訪問回数という原因から購入金額という結果が生まれると必ずしも言えるでしょうか?
結論からお話すると、ここでこのケースを因果関係と結論づけてしまうのは時期尚早です。
※とはいえマーケティングの世界では相関関係が確認されれば問題なく、因果関係は気にせずGOする場合もあります。
例えばこの場合、相関の裏に第3の因子が存在するケースがあります。
たとえばこのケースだと、ロイヤリティが高いお客さんほど訪問回数が高く同様にロイヤリティが高いお客さんほど年間購入金額が高くなっているということが考えられます。
つまり、この場合、裏側にロイヤリティという第3の因子があるということになりますね。
ロイヤリティという抽象的な概念で恐縮ですが、たとえばECサイト入会前に店頭で購買しているお客さんは元からロイヤリティが高く、訪問回数・購入金額ともに高くなったということが考えられます。
もし、このケースを因果関係と結論づけてしまうと、とにかく購入金額を上げるために訪問さえさせればよいという考えにいたってしまい危険です。
相関関係という表面上の指標に騙されない方法
では、そんな相関関係という表面上の指標に騙されないようにするためにはどうすればよいでしょうか?
最初に断ってきますが騙されない方法は、極論
”騙されないように気を付けておく”
ことになります。
相関関係があるとは言っても、因果関係があるとは言えないんだということを理解しておきましょう!
その上で、意識しておいて欲しいことを2つ挙げておきます。
様々なデータを頭に叩き込んでおく
正直、データの違和感に気付く上で重要なのは普段からどれだけデータに触れているか。
少なくともあなたの仕事で扱うデータはソラである程度言えるようにしておくことが望ましいです。
データをないがしろにせず、普段からみっちりデータを頭に叩き込んでおきましょう。
疑うクセを付ける
抽象論で恐縮ですが、データを鵜呑みにせず疑うクセを付けることが大事です。
昨今の一方向的なメディアに慣れてしまうと、どうしても情報を鵜呑みにしてしまうクセが付いてしまいますが、そもそも誰かが切り取った情報なんて疑いどころありまくりです。
ケチをつけるわけではなく、全てを信じてはいけないというスタンスを持っておくと良いでしょう。
そうすることで、コンサルタントの上手い話にも騙されませんし、自分で算出したデータの勘違いにも早い段階で気付くことができます。
因果関係を証明する方法
相関関係という表面上の指標に騙されないようになったとしても因果関係はどのように証明すればよいのでしょうか?
結論から言うと、因果関係を証明するのは非常に難しい、です
実は、因果関係を統計的に証明する、という領域は「統計的因果推論」という分野で確立されています。
そんな統計的因果推論の中からいくつか有名な方法を紹介していきます。
まずは、因果関係を分かりやすくするために以下の例を考えてみましょう!
「年収と一日の平均摂取カロリーには負の相関関係がある」
と聞いたらみなさんはどのように思いますか?
「よっしゃ!年収をあげるためにカロリーを抑えよう!」と思うでしょうか?
でも実際にはカロリーを低く抑えることによって年収が上がるということは期待されません。
もうお分かりだと思いますが、相関関係があったとしても因果関係があるとは限らないからです。
この場合、「年収」と「摂取カロリー」の裏に「年齢」という隠れた因子が存在するかもしれません。
一般的に年齢が高くなると年収は上がります。そして年齢が高くなると摂取カロリーは低くなるでしょう。
そのため摂取カロリーが低い人ほど年収が高くなったのです。
さて、こんなケースの時どのように因果関係を見つけていけばよいでしょう?
層別解析
一つ目は、層別解析という方法です。
年収と摂取カロリーの二つの上流には年齢という交絡因子が存在するために疑似相関が現れてしまいました。
そこで、例えば、20代以下・30代・40代・50代・60代以上で層別化してみるとそれぞれ層の中のデータでは相関はないことがわかります。
もし、層別して交絡因子を取り除いても原因変数と結果変数に直接的な因果関係があれば各層の中で単回帰分析を行い、各層での回帰係数を統合することで因果効果を推定することが出来ます。
しかし、この方法にもデメリットがあり層別するとサンプルサイズが減るので各層での推定が不安定になります。
また、交絡因子が連続変量の場合には離散化して層別するのですが、離散化には解析者の恣意性が入ってしまうことも課題として挙げられます。
さらに、測定されていない交絡因子に対しては対処が出来ません。
マッチング
2群の間で交絡因子の値が近い個体をマッチングさせる方法です。
交絡因子が近いならその二人はほぼ同じ人とみなすことが出来るので結果の差を介入による因果効果だと考えて良いでしょうということです。
各々をマッチングして結果の差をとったらそれらを統合すれば完了です。
しかし、マッチングにも層別解析と似たデメリットがあります。
まず、交絡因子の数が多ければマッチングは難しくなります。
さらに、交絡因子が質的なら完璧にマッチングさせることも出来ますが連続変量ならば何かしらの距離を定義して近いものをマッチングする必要があります。
また、どうしてもうまくマッチング出来ない個体も出てきます。
そしてマッチング出来ない個体数は交絡因子の数が多くなると増えてデータを無駄にすることになります。
他にもいくつかの統計的に因果を証明する方法は存在します。
因果関係を見つける方法を体系的に以下の記事でまとめていますので興味のある方はぜひチェックしてみてください!
また因果推論を学ぶ上でのおすすめ本を以下の記事でまとめていますのでぜひ見てみてください!
相関関係と因果関係の違い まとめ
相関関係と因果関係の違いについてまとめてきました。
因果関係を見つけるのは非常に難しく因果関係を追い求めるのは非現実的なのですが、それでも相関関係と因果関係は違うよ、ということは必ず意識しておいてください。
そこを意識しておくのと意識しておかないとでは、マーケティングにおける打ち手の成功確率が全く違います。
この記事で解説してきた「相関関係と因果関係」は統計学の基礎作りに非常に大事ですが、まだまだ統計学の領域には学ぶことがたくさんあります!
統計学を包括的に学びたい!という方は、是非以下の記事をチェックしてみてください!
統計学の勉強するべきポイントや勉強方法についてまとめていますよ!