統計学

統計学とは?

ウマたん
ウマたん
本記事では、統計学について徹底的にまとめていきます。統計学の歴史・統計学で使われる手法・統計学に必要なプログラミング言語などを詳しく紹介していきますよー!この機会に統計学をしっかり理解しておきましょう!

こんにちは!

統計学専攻で修士課程卒業後、消費財メーカーでデータサイエンティストやってるウマたん(@statistics1012)です。

統計学というとどんなイメージを持つでしょう?

年代ごとの男女比とか取るアンケートみたいなやつ?
数式がずらっと並んでいて吐き気がするやつ?

なかなか統計学って一言では説明しづらい学問なんですよね。

そこで、この記事では思いっきり統計学について語っていきたいと思います。

ウマたん
ウマたん
統計学って色んな広がり方をしていて実は僕たちの身近な色んなところで使われているんだ!

統計学の歴史

まずは、統計学の歴史をたどっていきましょう!

統計学の原点

統計学の原点は、国の人口や経済状況を把握するために行われた調査。

17世紀頃から現代の統計学のルーツになる様々な調査が行われるようになり、いわゆる統計学時代の幕開けとなるのです。

この時代で有名なのは、ハレー彗星の軌道計算で知られる「エドモンド・ハレー

ハレーは、人間の死亡年齢の統計的解析を行い、保険業界の発展に寄与した人間。

現代の保険業界では、このような解析を行うアクチュアリーという資格を取った人を抱えており、日々高度な計算のもと様々な保険商品が生まれています。

19世紀になると、数学者として有名なフェルマーやラプラスによって確率論が確立され、統計学の基礎になりました。

ウマたん
ウマたん
複雑な計算を用いる統計学の原点はここにあるんだね!

この頃、ガウスによって統計学の土台である正規分布(ガウス分布)が提唱されたことも有名です。

これらの研究を基礎として記述統計学は完成を迎えることになります。

推計統計学の発展

20世紀に入ると、フィッシャーやピアソンによる推計統計学の研究が進みます。

記述統計学はデータをどう表現するかの学問でしたが、必要なデータが全て揃っているとは限りません。

例えば、視聴率を測るために全家庭のTV使用状況を調べるのは現実的ではありませんよね?そこで生まれたのが、サンプルをランダムに抽出してそのサンプルの統計値を全集団(母集団と呼ぶ)の推定値として用いるという考え方。

この推計統計学の発展によって、未知なる事象に対する様々な推定が出来るようになったのです。

ただ、この推計統計学は確率分布が前提に立っており応用が利かない部分もあります。

そこで発展したのがベイズ統計学

ベイズ統計学

ベイズ統計学自体は、18世紀から存在したのですが従来の統計学派閥に強く非難され日の目を見ることはしばらくありませんでした。

ベイズ統計学は、便利である一方で主観的確率に基づく推測を行うのと計算が非常に煩雑であるため、なかなか実用されることがなかったのです。

しかし昨今のマシーンパワーの進化でベイズ統計学を前提とした推測計算も容易に行うことができるようになり、多くの分野でベイズ統計学が使われるようになってきています。

ベイズ統計学に関しては以下の記事にまとめていますので良ければご覧ください!

ベイズ統計学当サイト【統計ラボ】の本記事では、伝統的な統計学とは対立した立場を取るベイズ統計学についてまとめていきます。今注目されているベイズ統計学の基本的な部分をしっかりおさえておくことが重要です。...
ベイズ統計学は大学院の時、結構勉強したんだけど複雑なんだよねー!笑

長くなりましたが、これが統計学のざっくりとした歴史。

様々な先人たちの知恵が詰まって作り上げられてきているのが統計学なんです。

統計学の種類

先ほど統計学の歴史で出てきましたが、統計学にはいくつかの種類があります。

種類は大きく分けると以下の3つ。

■記述統計学
■推計統計学
■ベイズ統計学

記述統計学

記述統計学では、平均・分散をはじめとした統計学の基礎となる算出方法が登場します。

ただ、記述統計学は手元にあるデータを可視化することには長けていますが、未知なる事象を表現したり予測したりすることはできません。

そこで登場したのが続いての推計統計学という考え方です。

推計統計学

推計統計学は、母集団の一部であるサンプルに対して統計学的手法を取り入れて母集団の推定値を計算するという手法。

一部のデータから、その裏に潜んでいる真の事象を推定する方法から多くの分野で実用化されています。

例えば、機械の不良などを調べるためにはいくつかのサンプルデータから不良であると言えるかという仮説検定を行います。

デジタルマーケティングの業界でもLPのABテストを行う時に推計統計学における検定を用いることが一般的です。

ベイズ統計学

ベイズ統計学は、古くから存在するものの最近になって日の目を浴びるようになってきた手法です。

応用範囲は広いんですが、使う人の恣意性が取り込まれてしまうという問題と積分計算が複雑で解析的に解けないことが多いという問題がありました。

それを解決したのが最近のマシーンパワーの進化。

コンピューターのスペックが上がって複雑な計算ができるようになったことでマルコフ連鎖モンテカルロ法と呼ばれる乱数シミュレーションで近似的に解が求められるようになったんです!

詳しくはこちらの記事にまとめているのでご覧ください!

ベイズ統計学当サイト【統計ラボ】の本記事では、伝統的な統計学とは対立した立場を取るベイズ統計学についてまとめていきます。今注目されているベイズ統計学の基本的な部分をしっかりおさえておくことが重要です。...

統計学の手法

統計学は広く3つに大別されると言いましたが、統計学を土台にした手法はたくさんあります。

以下の動画でも分かりやすく解説していますよー!

簡単に有名な手法について見ていきましょう!

統計的検定

統計的検定は推計統計学の基礎となる手法です。

様々な事象に対する仮説を実証するのに用いられます。

検定を用いると、なんとなく差がある気がするなーと感覚的に思っていたことが本当に正しいのかどうかが分かります。

検定に関してはこちらに詳しくまとめているので興味のある方はご覧ください!

統計的検定とは?具体例と種類について見ていこう!当サイト【統計ラボ】の本記事では、統計検定の具体例と種類についてまとめていきます。おさえておきたいのはt検定とカイ二乗検定の2つ!この2つの意味と使い方をしっかりおさえておくことでビジネスレベルでは問題ありません。...

また以下の動画でも分かりやすく解説しています!

回帰分析

回帰分析を用いることで、様々な事象の関連性を見ることができます。

そしてその関連性からある事象の予測をすることができるのです。

よくある例では、アイスクリームの需要予測。

回帰分析を用いれば、気温や天気という要素からアイスクリームの需要を予測することができるのです。

回帰分析に関してはこちらに詳しくまとめています!

回帰分析の理論とRでの実装!当サイト【統計ラボ】の本記事では、統計学・データサイエンスの基本である回帰分析について理論とRでの実装を見ていきます。回帰分析についてしっかりおさえておくことで機械学習など高度な手法についても理解が深まります。...

クラスター分析

クラスター分析はある母集団をグループ分けする手法。

例えば、顧客のセグメントを作る時に年代や性別、行動パターンを基にクラスター分析を行うと、今まで見えてこなかったセグメント集団が浮かび上がってくることがあります。

クラスター分析に関してはこちらにまとめていますので良ければご覧ください!

クラスター分析とは?Rでの実装方法を一緒に見ていこう!当サイト【統計ラボ】の本記事では、クラスター分析についてまとめていきます。クラスター分析は教師なし学習の定番手法で、データの構造や傾向を把握するのに非常に役立ちます。クラスター分析を利用してデータを可視化してみましょう!...

機械学習手法

これまで紹介した手法は、主に現状を把握するために用いられる手法群でした。

そのため、アウトプットに対して解釈容易性が求められるのです。

しかし近年、解釈容易性はいらないかたとりあえず未来を高い精度で予測できればよいよね!という風潮が高まっています。

そんな中登場してきているのが機械学習手法。

アルゴリズムが複雑な部分もあるため結果に対しての解釈容易性は低いですが、精度は非常に高いのです。

機械学習手法に関しては以下の記事で詳しくまとめています!

機械学習入門に必要な知識と独学勉強方法をPythonとRの実装と一緒に見ていこう!当サイト【統計ラボ】の本記事では、入門者向けに機械学習についてカンタンにまとめていきます。最終的にはどのように機械学習を学んでいけばよいかも見ていきます。細かい手法の実装もPython/Rを用いておこなっていくので適宜参考にしてみてください。...

ここで紹介してきた手法は、統計学の枠組みの中でもごく一部。

もしあなたがビジネスマンなら是非統計学を学びましょう!

マーケティングに重要な統計学手法をこちらの記事にまとめているので良ければご覧ください!

マーケティングに統計の考え方を取り入れてビジネスを加速させよう!当サイト【統計ラボ】の本記事では、マーケティングにおいて重要な統計学についてマーケター目線で徹底的にまとめていきます。さらにどのように統計学を勉強していけばよいかも紹介していくのでぜひチェックしてみてください!...

統計学で用いられるプログラミング言語

続いては統計学で用いられるプログラミング言語について見ていきましょう!

統計学では、RとPythonという二つのプログラミング言語が有名です。

少し高度なモデリングを行うならStanをマスターしておくと便利ですが、基本的にはRかPythonが出来れば問題ありません。

R

アカデミックで使われることの多いR言語。

世界中の人々が日々パッケージを作って共有してくれているので、簡単なコードで様々なアルゴリズムを実装することができます。

また描画にも強い言語で、ggplot2というパッケージを用いれば簡単に見やすいグラフィックを表現することができます。

Python

最も現在熱い言語がPython。プログラミング言語別の年収でも常に上位です。

Rと同様にデータ解析に特化していて、かつ頻繁にパッケージが開発されているので様々なアルゴリズムが簡易的に実装可能です。

Rと最も大きく違う点は、開発言語として使えるか否か。

Pythonは開発言語としても使えるので、アルゴリズムを回してそのままサービスローンチまで一気通貫で利用できます。

RよりもPythonをマスターしておくことがこれからの時代は大事でしょう!

Stan

複雑なデータになると、簡易的な回帰ではなく複雑な分布を想定したモデル構築が必要です。

分布のパラメータにさらに分布を想定して柔軟にモデル構築を行う階層ベイズという手法があるのですが、それを実装する上ではStanが必須になってきます。

こちらの記事で統計学で使うプログラミング言語について詳しくまとめているのでよければご覧ください!

統計解析を行う上で便利なプログラミング言語を比較!当サイト【統計ラボ】の本記事では、統計解析において便利なプログラミング言語「Python/R/Stan/SQL」を比較していきます。それぞれのプログラミング言語にどのような特徴があるのか、どのように勉強していけばよいのか見てきますよー!...

統計学 まとめ

統計学の歴史から統計学の種類までまとめてきましたが、統計学とは何かなんとなく分かっていただけたでしょうか?

最近流行りのAIも統計学の発展形であり、様々な産業を支えているんです。

統計学を勉強する上では、まず様々な本を読むことをオススメします!

統計学を勉強する上で以下の記事を参考にしてみてください!

メモ
統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【統計ラボ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
統計学はビジネスでもかなり役立つから是非勉強して欲しい!

 

Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!