データサイエンス

統計学とは?

こんにちは!統計学専攻で修士課程卒業後、都内でデジタルマーケターやってるウマたん(@statistics1012)です。

統計学というとどんなイメージを持つでしょう?

年代ごとの男女比とか取るアンケートみたいなやつ?
数式がずらっと並んでいて吐き気がするやつ?

なかなか統計学って一言では説明しづらい学問なんですよね。

そこで、この記事では思いっきり統計学について語っていきたいと思います。

統計学って色んな広がり方をしていて実は僕たちの身近な色んなところで使われているんだ!

統計学の歴史

統計学の原点は、国の人口や経済状況を把握するために行われた調査。

17世紀頃から現代の統計学のルーツになる様々な調査が行われるようになり、いわゆる統計学時代の幕開けとなるのです。

この時代で有名なのは、ハレー彗星の軌道計算で知られる「エドモンド・ハレー」

ハレーは、人間の死亡年齢の統計的解析を行い、保険業界の発展に寄与した人間。現代の保険業界では、このような解析を行うアクチュアリーという資格を取った人を抱えており、日々高度な計算のもと様々な保険商品が生まれています。

19世紀になると、数学者として有名なフェルマーやラプラスによって確率論が確立され、統計学の基礎になりました。

複雑な計算を用いる統計学の原点はここにあるんだね!

この頃、ガウスによって統計学の土台である正規分布(ガウス分布)が提唱されたことも有名です。

これらの研究を基礎として記述統計学は完成を迎えることになります。

20世紀に入ると、フィッシャーやピアソンによる推計統計学の研究が進みます。記述統計学はデータをどう表現するかの学問でしたが、必要なデータが全て揃っているとは限りません。

例えば、視聴率を測るために全家庭のTV使用状況を調べるのは現実的ではありませんよね?そこで生まれたのが、サンプルをランダムに抽出してそのサンプルの統計値を全集団(母集団と呼ぶ)の推定値として用いるという考え方。

この推計統計学の発展によって、未知なる事象に対する様々な推定が出来るようになったのです。

ただ、この推計統計学は確率分布が前提に立っており応用が利かない部分もあります。そこで発展したのがベイズ統計学。

ベイズ統計学自体は、18世紀から存在したのですが従来の統計学派閥に強く非難され日の目を見ることはしばらくありませんでした。

ベイズ統計学は、便利である一方で主観的確率に基づく推測を行うのと計算が非常に煩雑であるため、なかなか実用されることがなかったのです。

しかし昨今のマシーンパワーの進化でベイズ統計学を前提とした推測計算も容易に行うことができるようになり、多くの分野でベイズ統計学が使われるようになってきています。

ベイズ統計学に関しては以下の記事にまとめていますので良ければご覧ください!

ベイズ統計学 ベイズ統計学は最近になって脚光を浴びるようになってきた新たな手法。 伝統的な統計学とは一線を画す考え方だったのですが、現在...
ベイズ統計学は大学院の時、結構勉強したんだけど複雑なんだよねー!笑

長くなりましたが、これが統計学のざっくりとした歴史。様々な先人たちの知恵が詰まって作り上げられてきているのが統計学なんです。

統計学の種類

先ほど統計学の歴史で出てきましたが、統計学にはいくつかの種類があります。種類は大きく分けると以下の3つ。

■記述統計学
■推計統計学
■ベイズ統計学

記述統計学

記述統計学では、平均・分散をはじめとした統計学の基礎となる算出方法が登場します。

ただ、記述統計学は手元にあるデータを可視化することには長けていますが、未知なる事象を表現したり予測したりすることはできません。

そこで登場したのが続いての推計統計学という考え方です。

推計統計学

推計統計学は、母集団の一部であるサンプルに対して統計学的手法を取り入れて母集団の推定値を計算するという手法。

一部のデータから、その裏に潜んでいる真の事象を推定する方法から多くの分野で実用化されています。

例えば、機械の不良などを調べるためにはいくつかのサンプルデータから不良であると言えるかという仮説検定を行います。

デジタルマーケティングの業界でもLPのABテストを行う時に推計統計学における検定を用いることが一般的です。

ベイズ統計学

ベイズ統計学は、古くから存在するものの最近になって日の目を浴びるようになってきた手法です。

応用範囲は広いんですが、使う人の恣意性が取り込まれてしまうという問題と積分計算が複雑で解析的に解けないことが多いという問題がありました。

それを解決したのが最近のマシーンパワーの進化。コンピューターのスペックが上がって複雑な計算ができるようになったことでマルコフ連鎖モンテカルロ法と呼ばれる乱数シミュレーションで近似的に解が求められるようになったんです!

詳しくはこちらの記事にまとめているのでご覧ください!

ベイズ統計学 ベイズ統計学は最近になって脚光を浴びるようになってきた新たな手法。 伝統的な統計学とは一線を画す考え方だったのですが、現在...

統計学の手法

統計学は広く3つに大別されると言いましたが、統計学を土台にした手法はたくさんあります。

簡単に有名な手法について見ていきましょう!

統計的検定

統計的検定は推計統計学の基礎となる手法です。様々な事象に対する仮説を実証するのに用いられます。

検定を用いると、なんとなく差がある気がするなーと感覚的に思っていたことが本当に正しいのかどうかが分かります。

検定に関してはこちらに詳しくまとめているので興味のある方はご覧ください!

統計的検定とは?具体例と種類について見ていこう! アカデミックの世界でもビジネスの世界でも、ある事象に対して仮説を検証する時には必ず統計的検定を行います。 統計的検定を行わ...

回帰分析

回帰分析を用いることで、様々な事象の関連性を見ることができます。そしてその関連性からある事象の予測をすることができるのです。

よくある例では、アイスクリームの需要予測。回帰分析を用いれば、気温や天気という要素からアイスクリームの需要を予測することができるのです。

回帰分析に関してはこちらに詳しくまとめています!

回帰分析の理論とRでの実装! こんにちは! この記事では最も一般的でビジネスシーンでもよく使われる「回帰分析」について説明していきます! データ解...

クラスター分析

クラスター分析はある母集団をグループ分けする手法。例えば、顧客のセグメントを作る時に年代や性別、行動パターンを基にクラスター分析を行うと、今まで見えてこなかったセグメント集団が浮かび上がってくることがあります。

クラスター分析に関してはこちらにまとめていますので良ければご覧ください!

クラスター分析 こんにちは!デジタルマーケターのウマたん(@statistics1012)です! 大量のデータセットをいくつかのグループ・...

機械学習手法

これまで紹介した手法は、主に現状を把握するために用いられる手法群でした。そのため、アウトプットに対して解釈容易性が求められるのです。

しかし近年、解釈容易性はいらないかたとりあえず未来を高い精度で予測できればよいよね!という風潮が高まっています。

そんな中登場してきているのが機械学習手法。アルゴリズムが複雑でブラックボックス化されている部分もあるため結果に対しての解釈容易性は低いですが、精度は非常に高いのです。

機械学習手法の中でも簡単に実装することができ精度の高いランダムフォレストに関してこちらにまとめていますので良ければご覧ください!

ランダムフォレストとは?PythonとRで実装してみよう!こんにちは!デジタルマーケターのウマたん(@statistics1012)です! 今回は、汎化能力の非常に高い最強手法ランダムフォレス...

ここで紹介してきた手法は、統計学の枠組みの中でもごく一部。

もしあなたがビジネスマンなら是非統計学を学びましょう!マーケティングに重要な統計学手法をこちらの記事にまとめているので良ければご覧ください!

マーケティングに統計の考え方を取り入れてビジネスを加速させよう!こんにちは! 大学院で統計学を専門に研究し、現在消費財メーカーでマーケティングを担っているウマたん(@statistics1012...

統計学で用いられるプログラミング言語

続いては統計学で用いられるプログラミング言語について見ていきましょう!

統計学では、RとPythonという二つのプログラミング言語が有名です。少し高度なモデリングを行うならStanをマスターしておくと便利ですが、基本的にはRかPythonが出来れば問題ありません。

R

アカデミックで使われることの多いR言語。世界中の人々が日々パッケージを作って共有してくれているので、簡単なコードで様々なアルゴリズムを実装することができます。

また描画にも強い言語で、ggplot2というパッケージを用いれば簡単に見やすいグラフィックを表現することができます。

Python

最も現在熱い言語がPython。プログラミング言語別の年収でも常に上位です。

Rと同様にデータ解析に特化していて、かつ頻繁にパッケージが開発されているので様々なアルゴリズムが簡易的に実装可能です。

Rと最も大きく違う点は、開発言語として使えるか否か。Pythonは開発言語としても使えるので、アルゴリズムを回してそのままサービスローンチまで一気通貫で利用できます。

RよりもPythonをマスターしておくことがこれからの時代は大事でしょう!

Stan

複雑なデータになると、簡易的な回帰ではなく複雑な分布を想定したモデル構築が必要です。

分布のパラメータにさらに分布を想定して柔軟にモデル構築を行う階層ベイズという手法があるのですが、それを実装する上ではStanが必須になってきます。

 

こちらの記事で統計学で使うプログラミング言語について詳しくまとめているのでよければご覧ください!

統計解析を行う上で便利なプログラミング言語を比較!統計学を学ぶにあたって必要なプログラミングのスキル。 世の中にはプログラミング言語を使わずとも統計処理を扱えるソフトウェアが存在します...

まとめ

統計学の歴史から統計学の種類までまとめてきましたが、統計学とは何かなんとなく分かっていただけたでしょうか?

最近流行りのAIも統計学の発展形であり、様々な産業を支えているんです。

統計学を勉強する上では、まず様々な本を読むことをオススメします!

こちらの記事で統計学の本についてまとめていますので良ければご覧ください!

書籍
厳選32冊!統計学を勉強する上でおすすめな本こんにちは!元統計学専攻の大学院生、ウマたん(@statistics1012)とロボたんです。 今ではデジタルマーケティング関連のお仕事...
統計学はビジネスでもかなり役立つから是非勉強して欲しい!