こんにちは!
統計学専攻で修士課程卒業後、消費財メーカーでデータサイエンティストやってるウマたん(@statistics1012)です。
統計学というとどんなイメージを持つでしょう?
なかなか統計学って一言では説明しづらい学問なんですよね。
そこで、この記事では思いっきり統計学について語っていきたいと思います。
目次
統計学の歴史
まずは、統計学の歴史をたどっていきましょう!
統計学の原点
統計学の原点は、国の人口や経済状況を把握するために行われた調査。
17世紀頃から現代の統計学のルーツになる様々な調査が行われるようになり、いわゆる統計学時代の幕開けとなるのです。
この時代で有名なのは、ハレー彗星の軌道計算で知られる「エドモンド・ハレー」
ハレーは、人間の死亡年齢の統計的解析を行い、保険業界の発展に寄与した人間。
現代の保険業界では、このような解析を行うアクチュアリーという資格を取った人を抱えており、日々高度な計算のもと様々な保険商品が生まれています。
19世紀になると、数学者として有名なフェルマーやラプラスによって確率論が確立され、統計学の基礎になりました。
この頃、ガウスによって統計学の土台である正規分布(ガウス分布)が提唱されたことも有名です。
これらの研究を基礎として記述統計学は完成を迎えることになります。
推計統計学の発展
20世紀に入ると、フィッシャーやピアソンによる推計統計学の研究が進みます。
記述統計学はデータをどう表現するかの学問でしたが、必要なデータが全て揃っているとは限りません。
例えば、視聴率を測るために全家庭のTV使用状況を調べるのは現実的ではありませんよね?そこで生まれたのが、サンプルをランダムに抽出してそのサンプルの統計値を全集団(母集団と呼ぶ)の推定値として用いるという考え方。
この推計統計学の発展によって、未知なる事象に対する様々な推定が出来るようになったのです。
ただ、この推計統計学は確率分布が前提に立っており応用が利かない部分もあります。
そこで発展したのがベイズ統計学。
ベイズ統計学
ベイズ統計学自体は、18世紀から存在したのですが従来の統計学派閥に強く非難され日の目を見ることはしばらくありませんでした。
ベイズ統計学は、便利である一方で主観的確率に基づく推測を行うのと計算が非常に煩雑であるため、なかなか実用されることがなかったのです。
しかし昨今のマシーンパワーの進化でベイズ統計学を前提とした推測計算も容易に行うことができるようになり、多くの分野でベイズ統計学が使われるようになってきています。
ベイズ統計学に関しては以下の記事にまとめていますので良ければご覧ください!
長くなりましたが、これが統計学のざっくりとした歴史。
様々な先人たちの知恵が詰まって作り上げられてきているのが統計学なんです。
統計学の種類
先ほど統計学の歴史で出てきましたが、統計学にはいくつかの種類があります。
種類は大きく分けると以下の3つ。
■記述統計学
■推計統計学
■ベイズ統計学
記述統計学
記述統計学では、平均・分散をはじめとした統計学の基礎となる算出方法が登場します。
ただ、記述統計学は手元にあるデータを可視化することには長けていますが、未知なる事象を表現したり予測したりすることはできません。
そこで登場したのが続いての推計統計学という考え方です。
推計統計学
推計統計学は、母集団の一部であるサンプルに対して統計学的手法を取り入れて母集団の推定値を計算するという手法。
一部のデータから、その裏に潜んでいる真の事象を推定する方法から多くの分野で実用化されています。
例えば、機械の不良などを調べるためにはいくつかのサンプルデータから不良であると言えるかという仮説検定を行います。
デジタルマーケティングの業界でもLPのABテストを行う時に推計統計学における検定を用いることが一般的です。
ベイズ統計学
ベイズ統計学は、古くから存在するものの最近になって日の目を浴びるようになってきた手法です。
応用範囲は広いんですが、使う人の恣意性が取り込まれてしまうという問題と積分計算が複雑で解析的に解けないことが多いという問題がありました。
それを解決したのが最近のマシーンパワーの進化。
コンピューターのスペックが上がって複雑な計算ができるようになったことでマルコフ連鎖モンテカルロ法と呼ばれる乱数シミュレーションで近似的に解が求められるようになったんです!
詳しくはこちらの記事にまとめているのでご覧ください!
統計学の手法
統計学は広く3つに大別されると言いましたが、統計学を土台にした手法はたくさんあります。
以下の動画でも分かりやすく解説していますよー!
簡単に有名な手法について見ていきましょう!
統計的検定
統計的検定は推計統計学の基礎となる手法です。
様々な事象に対する仮説を実証するのに用いられます。
検定を用いると、なんとなく差がある気がするなーと感覚的に思っていたことが本当に正しいのかどうかが分かります。
検定に関してはこちらに詳しくまとめているので興味のある方はご覧ください!
また以下の動画でも分かりやすく解説しています!
回帰分析
回帰分析を用いることで、様々な事象の関連性を見ることができます。
そしてその関連性からある事象の予測をすることができるのです。
よくある例では、アイスクリームの需要予測。
回帰分析を用いれば、気温や天気という要素からアイスクリームの需要を予測することができるのです。
回帰分析に関してはこちらに詳しくまとめています!
クラスター分析
クラスター分析はある母集団をグループ分けする手法。
例えば、顧客のセグメントを作る時に年代や性別、行動パターンを基にクラスター分析を行うと、今まで見えてこなかったセグメント集団が浮かび上がってくることがあります。
クラスター分析に関してはこちらにまとめていますので良ければご覧ください!
機械学習手法
これまで紹介した手法は、主に現状を把握するために用いられる手法群でした。
そのため、アウトプットに対して解釈容易性が求められるのです。
しかし近年、解釈容易性はいらないかたとりあえず未来を高い精度で予測できればよいよね!という風潮が高まっています。
そんな中登場してきているのが機械学習手法。
アルゴリズムが複雑な部分もあるため結果に対しての解釈容易性は低いですが、精度は非常に高いのです。
機械学習手法に関しては以下の記事で詳しくまとめています!
ここで紹介してきた手法は、統計学の枠組みの中でもごく一部。
もしあなたがビジネスパーソンなら是非統計学を学びましょう!
マーケティングに重要な統計学手法をこちらの記事にまとめているので良ければご覧ください!
統計学で用いられるプログラミング言語
続いては統計学で用いられるプログラミング言語について見ていきましょう!
統計学では、RとPythonという二つのプログラミング言語が有名です。
少し高度なモデリングを行うならStanをマスターしておくと便利ですが、基本的にはRかPythonが出来れば問題ありません。
R
アカデミックで使われることの多いR言語。
世界中の人々が日々パッケージを作って共有してくれているので、簡単なコードで様々なアルゴリズムを実装することができます。
また描画にも強い言語で、ggplot2というパッケージを用いれば簡単に見やすいグラフィックを表現することができます。
Python
最も現在熱い言語がPython。プログラミング言語別の年収でも常に上位です。
Rと同様にデータ解析に特化していて、かつ頻繁にパッケージが開発されているので様々なアルゴリズムが簡易的に実装可能です。
Rと最も大きく違う点は、開発言語として使えるか否か。
Pythonは開発言語としても使えるので、アルゴリズムを回してそのままサービスローンチまで一気通貫で利用できます。
RよりもPythonをマスターしておくことがこれからの時代は大事でしょう!
Stan
複雑なデータになると、簡易的な回帰ではなく複雑な分布を想定したモデル構築が必要です。
分布のパラメータにさらに分布を想定して柔軟にモデル構築を行う階層ベイズという手法があるのですが、それを実装する上ではStanが必須になってきます。
こちらの記事で統計学で使うプログラミング言語について詳しくまとめているのでよければご覧ください!
統計学 まとめ
統計学の歴史から統計学の種類までまとめてきましたが、統計学とは何かなんとなく分かっていただけたでしょうか?
最近流行りのAIも統計学の発展形であり、様々な産業を支えているんです。
統計学を勉強する上では、まず様々な本を読むことをオススメします!
統計学を勉強する上で以下の記事を参考にしてみてください!