データ解析

【初心者向け】統計学の手法をビジネスに活かす方法と注意点

統計 ビジネス
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、統計学の手法をビジネスに活かす方法と注意点についてまとめていきます。非常に範囲の広い統計学ですが、ビジネスシーンで頻出の手法はそんなに多くはないです。まずは必要最低限の部分をおさえておきましょう!

こんにちは!

消費財メーカーでデータサイエンティストをやってるウマたん(@statistics1012)です。

データサイエンティストと言えば、統計学とビジネスをつなぐと言われている職業。

ただ!統計学は大きなビジネスインパクトを生む可能性もありますが、どのような手法をどのように使えば良いのか分からないという意見も多いです。

また、手法ありきの統計分析は路頭に迷うことが多い!

ロボたん
ロボたん
統計学というと硬いイメージが強いからビジネスと結びつけるのもなかなか難しいんだよなー・・
ウマたん
ウマたん
確かに複雑な手法もあるけど、要点だけ絞って学べば大丈夫!実装自体は非常に簡単にできるしねー!

そうなんです。案外使う手法は限られているし、実装自体は非常に簡単!

そこで、この記事では

・ビジネス観点でどのような手法を使えばどんなことが分かるのか!
・統計学をビジネスに利用する上でどんなことに気を付ければよいのか!

についてまとめていきます。

ビジネスに活かしやすい統計的手法

まずは、ビジネスシーンでよく登場する統計的手法について見ていきましょう!

この記事では手法に絞って見ていきますが、前提として基本的な平均・分散・相関関係などの知識と、確率分布の考え方などはあらかじめおさえておきましょう!

「相関関係」「確率分布」についてちょっと分からないなという方は以下の動画で解説しているので是非チェックしてみてください!

この記事で紹介する「統計的検定」「回帰分析」も解説していますよ!

アカデミックシーンではよく使うけど、ビジネスシーンではあまり使わない手法も結構あるんですよー!

紹介していく手法は4つ!ここだけおさえておけばとりあえずは大丈夫!

・統計的検定
・回帰分析
・決定木
・クラスター分析

統計的検定

統計的検定は基本であり、かつ非常に重要な手法!

かみ砕いて言うと、

なんとなーく違いがありそうなことが本当に違うのか、はたまたそれは誤差の範囲なのか、をデータの裏付けから明らかにする手法。

ビジネスの仮説が正しいかを検証する上で非常に重要な役割を果たすんです!

いくつか統計的検定には種類がありますが、覚えておいた方がよいのはt検定カイ二乗検定くらい。

t検定は品質工学の場面で不良を見つけたり、いつもと違う異常値を見つけたりするのに役立ちます。

カイ二乗検定は、施策のABテストの結果を測るのに役立ちます。

カイ二乗検定はよく使うのでWebアプリケーション作っちゃいました。

ぜひのぞいてみてください。

Herokuというサービスを使っているので起動に少し時間がかかります。

統計的検定は非常に重要なのでぜひ覚えておきましょう!

統計的検定についてもう少し詳しく知りたい方は、以下の記事でまとめていますのでぜひチェックしてみてください!

統計的検定とは?具体例と種類について見ていこう!当サイト【スタビジ】の本記事では、統計検定の具体例と種類についてまとめていきます。おさえておきたいのはt検定とカイ二乗検定の2つ!この2つの意味と使い方をしっかりおさえておくことでビジネスレベルでは問題ありません。...

また、以下の動画でも分かりやすく解説しています!

回帰分析

回帰分析は聞いたことのある人が多いのではないでしょうか?

回帰分析は、

ある変数を用いて他の変数を説明(予測)するモデルを作ること

もっとかみ砕くと、

なんか家賃って、広さとか築年数とか駅からの徒歩とかと関係してそうじゃない?それらの関係をひもといてみようよ

という活動。

これってめっちゃビジネスシーンに活用できそうじゃないですか??

ウマたん
ウマたん
なんか天気とか気温とか広告量とか色々使えば、売上・需要を予想できそうじゃない?
ロボたん
ロボたん
確かに!!そう考えると色んなことに応用できそう!

そうなんです。

この回帰という問題は、本当に様々なところに使われています。

後ほどビジネスシーンで回帰問題を扱う上での注意点を挙げていきますが、単純に予測できるだけじゃビジネスに落とし込めないことも多いので注意が必要です。

以下の記事でR言語での実装も合わせて詳しくまとめているのでよければチェックしてみてください!

回帰分析
回帰分析の理論とRでの実装!当サイト【スタビジ】の本記事では、統計学・データサイエンスの基本である回帰分析について理論とRでの実装を見ていきます。回帰分析についてしっかりおさえておくことで機械学習など高度な手法についても理解が深まります。...

決定木

続いて、決定木!

データ分析のデータセットとして有名なタイタニックデータの分類例に使われることの多い決定木!

やっていることは基本的に先ほどの回帰問題と一緒なのですが、樹木のように変数の分岐が広がっていくことから決定木と呼ばれています。

ちなみに決定木では回帰問題も分類問題も扱うことができます。

先ほどの回帰問題は、量的な数値(売上とか土地の価格とか)を最終的に説明することを目的としていましたが、分類問題というのは顧客が購入にいたるかどうかのような0か1かの質的データを説明することを目的とします。

女性だったらこれくらい購入しやすい!15歳以下と16歳以上の購入しやすさはこれだけ違う!

というように変数の違いによって最終的な結果を分けていきます。

決定木

決定木の良いところは、実装のしやすさと解釈のしやすさ。

結果が分かりやすいので上司にも説明しやすいですよー!

ちなみに高度な機械学習手法であるランダムフォレストXgboostは決定木をアンサンブル学習させたものなんです。

強い機械学習手法の基礎としても使われているんですよー!

決定木に関してもっと詳しく知りたい方は以下の記事でまとめていますのでチェックしてみてください!

PythonとRでの実装も合わせておこなっていますよー!

決定木
決定木とは?PythonとRで実装してみよう!当サイト【スタビジ】の本記事では、機械学習手法の基本である決定木について見ていきたいと思います。アルゴリズムが分かりやすく実務でもよく使われる手法です。RとPythonでの簡単な実装も合わせておこなっていくので是非チェックしてくださいね!...

クラスター分析

続いてクラスター分析!

今までの手法は、教師あり学習と呼ばれ学習するための正解データがありました。

しかし、データによっては正解データを定義せずセグメント分けしたい場合もありますよねー!

例えば、購入するかしないかの規則性を確かめたいなら決定木などの分類手法でいいんですけど、顧客の行動の傾向によって顧客をいくつかのセグメントに分けたいとなった時どうしましょう。

セグメントの正解は持ってないのでどうやって分ければ・・・・となりますよね?

そこで登場するのがクラスター分析!!

大量のデータをインプットさせれば変数の特徴を捉えて分類をしてくれるんですよー!

クラスター分析には非階層的クラスター分析と階層的クラスター分析があります。

詳しくは以下の記事でまとめていますのでぜひチェックしてみてください!

クラスター分析
クラスター分析とは?RとPythonでの実装方法を一緒に見ていこう!当サイト【スタビジ】の本記事では、クラスター分析についてまとめていきます。クラスター分析は教師なし学習の定番手法で、データの構造や傾向を把握するのに非常に役立ちます。クラスター分析を利用してデータを可視化してみましょう!...

ここでは、4つの手法に絞って見てきましたが、主成分分析コンジョイント分析コレスポンデンス分析など他にも有用な多変量解析手法はいくつかありますよー!

以下の記事でまとめているので興味のある方はチェックしてみてください!

多変量解析
多変量解析の基礎をRで実装しながら学んでいこう!当サイト【スタビジ】の本記事では、データの構造把握に役立つ多変量解析について見ていきます。多変量解析とは予測的な観点ではなくあくまで現状データの構造把握に端を発していることが特徴です。Rでの実装も同時に行いながら理解を深めていきましょう!...

統計学をビジネスに活かす上での注意点

Check

ここまででビジネスに活用できそうな統計学のいくつかの手法が分かったと思います。

ロボたん
ロボたん
じゃあ、これらを覚えればもうOK?
ウマたん
ウマたん
ちょーっと待った!手法だけ覚えてもビジネスに活かせるとは限らない!いくつか注意点を取り上げておこう!

手法だけ覚えても上手くビジネスに利用できないことは多いです。

全部を網羅するのは不可能ですが、ビジネスに統計学を使う上での注意点をいくつかまとめておきましょう!

基礎分析を欠かさない

メモ

いきなり回帰分析や決定木を行うのは、あまりオススメしません。

ここでは、特に紹介しませんでしたが統計学には記述統計学という分野があります。

統計学の基礎の基礎。

平均とか標準偏差とかそうゆうやつです。

まずは、記述統計学に基づいて基礎分析を行いましょう!

男女に分けて平均値を比較してみたり、年齢と購入金額の相関を調べてみたり・・・

そこから得られる示唆は無限大!

得られた仮説を基に紹介してきた手法を駆使することが大事ですよー!

変数の選び方

回帰分析やクラスター分析を行う際に使う変数を選ぶわけですが、変数の選び方は大事です。

基本的に関係がありそうな変数をとにかく使用するのは機械学習の分野ではなくはないですが、統計学の分野ではあまり好まれません。

多重共線性と言う問題が起き、説明変数同士の相関が高すぎると推定が上手くできなくなってしまうのです。

極端な例ですが売上を説明する変数に摂氏と華氏を入れていたらどうでしょうか?

摂氏と華氏はどちらも気温を表す尺度なので線形で一致します。

この場合上手く推定ができなくなってしまうのです。

ビジネス観点からの統計学勉強法

PC

ここまで統計学をビジネスに活用するためにはどのような手法が有用なのか・どのような点に気を付けるべきなのか見てきましたが、なんとなく分かっても実際に使えるようになるまでにはまだまだギャップがあります。

そのギャップを埋める勉強法をカンタンにまとめていきます。

Udemyで勉強する

Udemy コース

統計学の勉強にはもちろん書籍もオススメなのですが、最初の取っ掛かりとしては分かりにくく挫折してしまう人が多いイメージを持っています。

いきなりギリシャ文字とかたくさん出てくるんでね・・・

そのため、まずはUdemyの動画でぜひ学んで欲しい!

Udemyは世界最大の教育オンラインプラットフォームなんです。

多くの講座があるのですが、自分が受講したことのある中でオススメを3つ紹介しておきましょう!

【世界で21万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜

Udemy コース データサイエンス
【オススメ度】
【講師】ITコンサルタント
【時間】26時間
【レベル】初級

非常に簡単で分かりやすいので、まず全体感をつかむために見て欲しい!

海外で非常に人気だったデータサイエンスコースの日本語版!

コミカルな動画と共に学べるので非常に分かりやすく、かつボリューミーです。

ビジネスサイドの話からデータサイエンスについて学べるのでビジネスサイドの人でも入りやすいです。

章立ての最後にある実践問題では、学んだ内容を実際にビジネスでどのように使うか分かりやすく解説してくれます!

本筋とはあまり関係ありませんが、k近傍法(Knn)k平均法(Kmeans)を間違って使っていて、だいぶ気になりました笑

最後には実データを使って実際の前処理→ロジスティック回帰による分析→タブローで可視化という流れを行っていくので実践に即した内容になっています。

\30日間返金無料/

【キカガク流】人工知能・機械学習 脱ブラックボックス講座ー初級編ー

Udemy コース アルゴリズム
【オススメ度】
【講師】株式会社キカガク代表取締役
【時間】4.5時間
【レベル】初級

統計学の基本となる単回帰分析を数式から学んでいくもの。

ビックリしたんですが、パワポではなく紙に手書きで進んでいくんです!

最初は抵抗があったものの、なるほど意外と分かりやすい。

よくよく考えたら学生時代の教育は先生が手書きで黒板に書いて進めてましたもんね。

統計学の書籍に進む前の数学慣れにピッタリの教材になっています!

数学のレベルは高校2年生の数ⅡBレベルが何となくわかれば大丈夫です。

\30日間返金無料/

【キカガク流】人工知能・機械学習 脱ブラックボックス講座 – 中級編 –

Udemy コース ブラックボックス中級
【オススメ度】
【講師】株式会社キカガク代表取締役
【時間】4.5時間
【レベル】初級~中級

初級編は単回帰分析について微分を使って紐解いていきますが、本コースでは線形代数を学びながら重回帰分析まで展開していきます。

線形代数は機械学習を学ぶ上で非常に重要なんです!

実際に数式的に重回帰分析を行い、その後にscikit-learnを使って分析を行っていきます。

このコースを受講しておけば、書籍で突然出てくる行列やベクトルに対しても吐き気をもよおさず読み進めることができるでしょう!

\30日間返金無料/

 

Udemyはクオリティが高くてとにかくオススメできるサービスなんですよー!

Udemyに関しては以下の記事でまとめています!

Udemy
【体験談】評判の良いUdemyを実際に20コース受けてみてレビュー!当サイト【スタビジ】の本記事では、世界最大のオンライン学習プラットフォームであるUdemyのメリット・デメリット・評判・口コミについてまとめていきます!実際にPython関連のコースを20個受講して分かった体験談をもとにお伝えしていきます。...

Udemy以外にも統計学を学べるサイトはいくつかあります。

以下の記事にまとめていますので是非チェックしてみてください!

統計 サイト
【入門者向け】統計学が学べるおすすめサイト・講座5選!当サイト【スタビジ】の本記事では、統計学を学ぶことのできる講座の中からオススメを紹介していきます。統計学はすこーし難しいイメージがありますが、理論よりもまずは手を動かすことが大事なんですよ。手を動かせるサイトを中心にまとめていきます。あなたにピッタリのサイトが見つかる!...

本で勉強する

どれだけ時間が経ってもやっぱり色あせないのが本。

なかには難書もありますので途中で挫折してしまう可能性もあるので、統計学を勉強するのにオススメの名著を4冊紹介したいと思います。

俺たちひよっこデータサイエンティストが世界を変える

created by Rinker
¥322
(2020/09/21 11:31:31時点 Amazon調べ-詳細)

手前味噌で恐縮なのですが、僕自身が「俺たちひよっこデータサイエンティストが世界を変える」という書籍を出版しています。

あまり具体的なデータサイエンティストの仕事について分かりやすく書いている本が見当たらなかったので自分で執筆しました!

ストーリー形式で分かりやすく書いていますので、ぜひ最初に目を通していただけるとイメージが湧くと思います。

価格は300円ちょっとですし、Kindle unlimitedであれば無料で読めるのでぜひチェックしてみてくださいね!

入門統計解析法

created by Rinker
¥3,190
(2020/09/21 16:30:36時点 Amazon調べ-詳細)

少し、話は高度になり数式なども出てきますが、基本的に高校レベルの数学ができれば問題なく理解できるレベルです。

こちらの本で理論の理解を深めましょう。入門レベルから中級レベルまでの橋渡しとして有用な本です。

多変量解析法

created by Rinker
¥2,420
(2020/09/21 16:10:32時点 Amazon調べ-詳細)

多変量解析に関してはこちらの1冊で基本的にカバーできます。

基礎となる回帰のお話から主成分分析などの話が丁寧に分かりやすく載っています。

単回帰、重回帰、判別分析、主成分分析のところは丁寧に読み込んでおくと良いでしょう。

データ解析のためのモデリング入門

統計学は回帰分析を超えて統計モデリングの世界に進みます。

この本では統計モデリングについて詳しく学ぶことができます。

名著でありエッセンスがたくさん詰まっているのですが難解な部分もあるので、ある程度統計学について理解した後に読み進めるとよいでしょう!

レベル的には中級者くらい。

 

書籍は、難解な部分も一部含まれますがエッセンスが多く詰まっているのでぜひ読み込んでください!

統計学のおすすめ本を以下の記事でまとめています!

書籍
厳選32冊!統計学を勉強する上でおすすめな本当サイト【スタビジ】の本記事では、統計学のおすすめ書籍を分野別に徹底的にまとめていきます!統計学は難しいイメージがあるかもしれませんが学び方を間違えなければ大丈夫。悪書に当たると一気に挫折してしまうので気を付けてください。ここで紹介する書籍はどれも良本なので安心してくださいね!...

Udemyと書籍を駆使してぜひ統計学の門を開いてください!

統計学の詳しい勉強方法についてより詳しく知りたい方はぜひ以下の記事を見てみてください!

この記事では記述統計については省きましたが、以下の記事では記述統計→推計統計(検定まわり)→回帰分析という順序でまとめています。

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...

統計学をビジネスに活かす方法 まとめ

統計学をビジネスに活かす方法についてまとめてきました!

ロボたん
ロボたん
だいぶ統計学について分かった気がする!
ウマたん
ウマたん
分かった気になっているだけではダメだ!実際に手を動かしてアウトプットして理解を進めよう!

最後にこの記事で紹介した手法と注意点をまとめておきましょう!

・基礎分析を欠かさない
・変数の選び方

統計学は現状のデータに意味を与えるという非常に重要な役割を持っていますが、予測精度という観点から見るとまだまだ優れた手法がたくさんあります。

非常に高い予測精度を誇る機械学習やディープラーニングについて知りたい方は以下の記事を参考にしてみてください!

機械学習
機械学習入門に必要な知識と勉強方法をPythonとRの実装と一緒に見ていこう!当サイト【スタビジ】の本記事では、入門者向けに機械学習についてカンタンにまとめていきます。最終的にはどのように機械学習を学んでいけばよいかも見ていきます。細かい手法の実装もPython/Rを用いておこなっていくので適宜参考にしてみてください。...
【初心者向け】ディープラーニングの学習ロードマップまとめ当サイト【スタビジ】本記事では、ディープラーニングの学習方法について詳しくまとめていきます!ディープラーニングは難しいと思われがちですが、アルゴリズムは意外とシンプルで実装自体も非常に簡単なんです!Pythonでの実装もおこなっていきますよー!...
Python 勉強
【入門】初心者が3か月でPythonを習得できるようになる勉強法!当ブログ【スタビジ】の本記事では、Pythonを効率よく独学で習得する勉強法を具体的なコード付き実装例と合わせてまとめていきます。Pythonはできることが幅広いので自分のやりたいことを明確にして勉強法を選ぶことが大事です。...
Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!