こんにちは!
消費財メーカーでデータサイエンティストをやってるウマたん(@statistics1012)です。
データサイエンティストと言えば、統計学とビジネスをつなぐと言われている職業。
ただ!統計学は大きなビジネスインパクトを生む可能性もありますが、どのような手法をどのように使えば良いのか分からないという意見も多いです。
また、手法ありきの統計分析は路頭に迷うことが多い!
そうなんです。案外使う手法は限られているし、実装自体は非常に簡単!
そこで、この記事では
・ビジネス観点でどのような手法を使えばどんなことが分かるのか!
・統計学をビジネスに利用する上でどんなことに気を付ければよいのか!
についてまとめていきます。
目次
ビジネスに活かしやすい統計的手法
まずは、ビジネスシーンでよく登場する統計的手法について見ていきましょう!
この記事では手法に絞って見ていきますが、前提として基本的な平均・分散・相関関係などの知識と、確率分布の考え方などはあらかじめおさえておきましょう!
「相関関係」「確率分布」についてちょっと分からないなという方は以下の動画で解説しているので是非チェックしてみてください!
この記事で紹介する「統計的検定」「回帰分析」も解説していますよ!
アカデミックシーンではよく使うけど、ビジネスシーンではあまり使わない手法も結構あるんですよー!
紹介していく手法は4つ!ここだけおさえておけばとりあえずは大丈夫!
・統計的検定
・回帰分析
・決定木
・クラスター分析
統計的検定
統計的検定は基本であり、かつ非常に重要な手法!
かみ砕いて言うと、
なんとなーく違いがありそうなことが本当に違うのか、はたまたそれは誤差の範囲なのか、をデータの裏付けから明らかにする手法。
ビジネスの仮説が正しいかを検証する上で非常に重要な役割を果たすんです!
いくつか統計的検定には種類がありますが、覚えておいた方がよいのはt検定とカイ二乗検定くらい。
t検定は品質工学の場面で不良を見つけたり、いつもと違う異常値を見つけたりするのに役立ちます。
カイ二乗検定は、施策のABテストの結果を測るのに役立ちます。
統計的検定は非常に重要なのでぜひ覚えておきましょう!
統計的検定についてもう少し詳しく知りたい方は、以下の記事でまとめていますのでぜひチェックしてみてください!
また、以下の動画でも分かりやすく解説しています!
回帰分析
回帰分析は聞いたことのある人が多いのではないでしょうか?
回帰分析は、
ある変数を用いて他の変数を説明(予測)するモデルを作ること
もっとかみ砕くと、
なんか家賃って、広さとか築年数とか駅からの徒歩とかと関係してそうじゃない?それらの関係をひもといてみようよ
という活動。
これってめっちゃビジネスシーンに活用できそうじゃないですか??
そうなんです。
この回帰という問題は、本当に様々なところに使われています。
後ほどビジネスシーンで回帰問題を扱う上での注意点を挙げていきますが、単純に予測できるだけじゃビジネスに落とし込めないことも多いので注意が必要です。
以下の記事でR言語での実装もあわせて詳しくまとめているのでよければチェックしてみてください!
決定木
続いて、決定木!
データ分析のデータセットとして有名なタイタニックデータの分類例に使われることの多い決定木!
やっていることは基本的に先ほどの回帰問題と一緒なのですが、樹木のように変数の分岐が広がっていくことから決定木と呼ばれています。
ちなみに決定木では回帰問題も分類問題も扱うことができます。
先ほどの回帰問題は、量的な数値(売上とか土地の価格とか)を最終的に説明することを目的としていましたが、分類問題というのは顧客が購入にいたるかどうかのような0か1かの質的データを説明することを目的とします。
女性だったらこれくらい購入しやすい!15歳以下と16歳以上の購入しやすさはこれだけ違う!
というように変数の違いによって最終的な結果を分けていきます。
決定木の良いところは、実装のしやすさと解釈のしやすさ。
結果が分かりやすいので上司にも説明しやすいですよー!
ちなみに高度な機械学習手法であるランダムフォレストやXgboostは決定木をアンサンブル学習させたものなんです。
強い機械学習手法の基礎としても使われているんですよー!
決定木に関してもっと詳しく知りたい方は以下の記事でまとめていますのでチェックしてみてください!
PythonとRでの実装もあわせておこなっていますよー!
クラスター分析
続いてクラスター分析!
今までの手法は、教師あり学習と呼ばれ学習するための正解データがありました。
しかし、データによっては正解データを定義せずセグメント分けしたい場合もありますよねー!
例えば、購入するかしないかの規則性を確かめたいなら決定木などの分類手法でいいんですけど、顧客の行動の傾向によって顧客をいくつかのセグメントに分けたいとなった時どうしましょう。
セグメントの正解は持ってないのでどうやって分ければ・・・・となりますよね?
そこで登場するのがクラスター分析!!
大量のデータをインプットさせれば変数の特徴を捉えて分類をしてくれるんですよー!
クラスター分析には非階層的クラスター分析と階層的クラスター分析があります。
詳しくは以下の記事でまとめていますのでぜひチェックしてみてください!
ここでは、4つの手法に絞って見てきましたが、主成分分析やコンジョイント分析、コレスポンデンス分析など他にも有用な多変量解析手法はいくつかありますよー!
以下の記事でまとめているので興味のある方はチェックしてみてください!
統計学をビジネスに活かす上での注意点
ここまででビジネスに活用できそうな統計学のいくつかの手法が分かったと思います。
手法だけ覚えても上手くビジネスに利用できないことは多いです。
全部を網羅するのは不可能ですが、ビジネスに統計学を使う上での注意点をいくつかまとめておきましょう!
基礎分析を欠かさない
いきなり回帰分析や決定木を行うのは、あまりオススメしません。
ここでは、特に紹介しませんでしたが統計学には記述統計学という分野があります。
統計学の基礎の基礎。
平均とか標準偏差とかそうゆうやつです。
まずは、記述統計学に基づいて基礎分析を行いましょう!
男女に分けて平均値を比較してみたり、年齢と購入金額の相関を調べてみたり・・・
そこから得られる示唆は無限大!
得られた仮説を基に紹介してきた手法を駆使することが大事ですよー!
変数の選び方
回帰分析やクラスター分析を行う際に使う変数を選ぶわけですが、変数の選び方は大事です。
基本的に関係がありそうな変数をとにかく使用するのは機械学習の分野ではなくはないですが、統計学の分野ではあまり好まれません。
多重共線性と言う問題が起き、説明変数同士の相関が高すぎると推定が上手くできなくなってしまうのです。
極端な例ですが売上を説明する変数に摂氏と華氏を入れていたらどうでしょうか?
摂氏と華氏はどちらも気温を表す尺度なので線形で一致します。
この場合上手く推定ができなくなってしまうのです。
ビジネス観点からの統計学勉強法
ここまで統計学をビジネスに活用するためにはどのような手法が有用なのか・どのような点に気を付けるべきなのか見てきましたが、なんとなく分かっても実際に使えるようになるまでにはまだまだギャップがあります。
そのギャップを埋める勉強法をカンタンにまとめていきます。
どれだけ時間が経ってもやっぱり色あせないのが本。
なかには難書もありますので途中で挫折してしまう可能性もあるので、統計学を勉強するのにオススメの名著を4冊紹介したいと思います。
俺たちひよっこデータサイエンティストが世界を変える
手前味噌で恐縮なのですが、僕自身が「俺たちひよっこデータサイエンティストが世界を変える」という書籍を出版しています。
あまり具体的なデータサイエンティストの仕事について分かりやすく書いている本が見当たらなかったので自分で執筆しました!
ストーリー形式で分かりやすく書いていますので、ぜひ最初に目を通していただけるとイメージが湧くと思います。
価格は300円ちょっとですし、Kindle unlimitedであれば無料で読めるのでぜひチェックしてみてくださいね!
入門統計解析法
少し、話は高度になり数式なども出てきますが、基本的に高校レベルの数学ができれば問題なく理解できるレベルです。
こちらの本で理論の理解を深めましょう。入門レベルから中級レベルまでの橋渡しとして有用な本です。
多変量解析法
多変量解析に関してはこちらの1冊で基本的にカバーできます。
基礎となる回帰のお話から主成分分析などの話が丁寧に分かりやすく載っています。
単回帰、重回帰、判別分析、主成分分析のところは丁寧に読み込んでおくと良いでしょう。
データ解析のためのモデリング入門
(2024/10/04 20:48:07時点 Amazon調べ-詳細)
統計学は回帰分析を超えて統計モデリングの世界に進みます。
この本では統計モデリングについて詳しく学ぶことができます。
名著でありエッセンスがたくさん詰まっているのですが難解な部分もあるので、ある程度統計学について理解した後に読み進めるとよいでしょう!
レベル的には中級者くらい。
書籍は、難解な部分も一部含まれますがエッセンスが多く詰まっているのでぜひ読み込んでください!
統計学のおすすめ本を以下の記事でまとめています!
書籍を駆使してぜひ統計学の門を開いてください!
統計学の詳しい勉強方法についてより詳しく知りたい方はぜひ以下の記事を見てみてください!
この記事では記述統計については省きましたが、以下の記事では記述統計→推計統計(検定まわり)→回帰分析という順序でまとめています。
統計学をビジネスに活かす方法 まとめ
統計学をビジネスに活かす方法についてまとめてきました!
最後にこの記事で紹介した手法と注意点をまとめておきましょう!
・基礎分析を欠かさない
・変数の選び方
統計学は現状のデータに意味を与えるという非常に重要な役割を持っていますが、予測精度という観点から見るとまだまだ優れた手法がたくさんあります。
非常に高い予測精度を誇る機械学習やディープラーニングについて知りたい方は以下の記事を参考にしてみてください!