こんにちは!データサイエンティストのウマたん(@statistics1012)です。
わりとマーケティングサイドの仕事もガッツリやっているんですが、大学院時代は統計学を専攻していて最近は業務がマーケティングよりもデータサイエンスにかなり寄ってきてます。
そんな僕がデータサイエンスを学ぶ上でのオススメ本や教材を紹介していきたいと思います!
ここでオススメした書籍で学びながらも並行して手を動かすためにデータ分析コンペのNishikaやKaggleを利用することをオススメします。
目次
そもそもデータサイエンスって何?
そもそもデータサイエンスって何なのかについて考えていきましょう。
以下の動画でも解説しています!
一時、データサイエンティストという職業が「21世紀最もセクシーな職業」なんてもてはやされてからデータサイエンスという言葉も聞かれるようになってきました。
Googleトレンドを見てみると、データサイエンスとデータサイエンティストの需要が右肩上がりで上がってきていることが分かります。
一方、ビッグデータは一時の流行りは落ち着いてきているみたい。
そんなデータサイエンスですが、主に3つのスキルに分かれます。
※データサイエンティストのスキルをここではデータサイエンスと定義します。2番目の統計学の部分だけをデータサイエンスとくくる場合もあります。
一つ目がエンジニアリング・ITスキル。
こちらはデータの抽出・加工、分析、データ連携、データベース構築などのスキル。SQL・R・Python・JavaScript・プログラミング一般知識などのスキルセットが望ましいと思ってください。
二つ目が統計学や機械学習の理論のスキル。
こちらは、実際にエンジニアリングした結果を正しく統計的に解釈することができるか。データに惑わされない勘所を押さえておくべきです。
検定を行った時のよくある勘違いや・偽相関・時系列データの見せかけの相関などエンジニアリングして出力した結果に対して解釈を間違えると大変なことになるパターンもあります。
これがないと、分析をして結果解釈までして果たしてその後どうするかまで導き出せません。
この能力がないと、無用の長物になってしまうことが多いです。
データを解析してそこから洞察を抽出し実際にビジネスインパクトにつなげる業務を一気通貫で行うのがデータサイエンティストという職業なのです!
とは言っても、これを一人で全部完璧に行うのは厳しいのでチームで疑似データサイエンティストを作っているパターンも多いです。
データサイエンティストに関して詳しくは以下の記事をご覧ください!
データサイエンスを勉強するのにオススメな本・教材18選!
それでは、早速データサイエンスを勉強するのにオススメな本や教材を見ていきましょう!
エンジニアリング・ITスキルを勉強するのにオススメな本・教材5選!
まずは、先ほどの必要な1つ目のスキル、エンジニアリングスキル。
とりあえずPython(もしくはR)・SQLが書ければそれほど困らずやりたいことを実現できます。
エンジニアリング領域は本だけでなく動画教材もあわせて見ながら学習することをオススメします!
Pythonスタートブック
他のプログラミング言語を触ったことある人には少し退屈な内容かもしれませんが、かなり初歩的なところからPythonについて学ぶことが可能です。
Pythonについて本で学ぶのはこれくらいで、それ以外はWebサービスとかプログラミングスクールで実際に手を動かして覚えたほうが良いと思います。
以下の記事で、自分なりにPythonを勉強するのにオススメな方法についてまとめているのでそちらも参考にしてみてください!
Kaggleで勝つデータ分析の技術
超絶売れている名著!
データの前処理、特徴量作成、モデリング、評価などを学ぶのに非常にオススメな書籍なんです!!
Kaggleというのは世界的に有名なデータ分析コンペで世界中のデータ分析の猛者が日々しのぎをけずっています。
コンペとはいっても参加するのには複雑な手続きなどはいらず誰でも簡単に参加できるので、初心者の方がデータ分析のスキルを身に着けていくのにうってつけの場です。
そんなKaggleには称号というものがあり、コンペで優秀な成績をおさめると一定の基準でグランドマスターやマスターなどの称号が与えられます。
それらの称号を得ている人たちが共著で執筆したのが、この「Kaggleで勝つデータ分析の技術」なんです。
ただ注意しておいて欲しいのがこの書籍はあくまでKaggleコンペでのデータ分析に特化しているということ。
コンペではある程度整形されたデータが提供され、分析課題も決まっています。
実務のデータ分析では、そもそも課題の洗い出しからデータ分析に値する課題設定と目的の明確化、そしてデータ取得、現場への導入など前処理・モデリング・モデル評価以外の工程もたくさんあるんです。
そこをしっかり理解した上で読みましょう!
この書籍の章立ては以下のようになっています。
第1章:分析コンペとは
第2章:タスクと評価指標
第3章:特徴量の作成
第4章:モデルの作成
第5章:モデルの評価
第6章:モデルのチューニング
第7章:アンサンブル
ぜひこの書籍を読んでKaggleに挑戦してみましょう!
【実践】ビジネスケースとつなげてPythonで出来ること5つを学べる3日間集中コース
【オススメ度】 | |
---|---|
【講師】 | 僕自身!今なら購入時に「3X4948P6EZTY」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください! |
【時間】 | 3.5時間 |
【レベル】 | 初級~中級 |
手前味噌ですが、Pythonについて理解してみるのにオススメなコースを僕自身が出しています!
Pythonで出来ることのうち以下の5つを網羅して学んでいきます。
・データ集計・加工・描画
・機械学習を使ったモデル構築
・Webスクレイピング
・APIの利用
・Webアプリケーション開発
データ集計・加工・描画と機械学習モデル構築に関してはKaggleというデータ分析コンペティションのWalmartの小売データを扱いながら学んでいきます。
WebスクレイピングとAPI利用とWebアプリケーション開発に関しては、楽天の在庫情報を取得してSlackに自動で通知するWebアプリケーションを作成して学んでいきます。
Pythonで何ができるのか知りたい!という方には一番はじめにまず受けていただきたいコースです!
RstudioではじめるRプログラミング入門
統計学に関することは一旦おいておいてプログラミング言語としてのRを学びたいという方におすすめの本です。
この本は、「統計の知識がなくてもRを純粋にプログラミング言語として学ぼう」ということをコンセプトにして作られたらしく、データ解析というよりプログラミングよりのRのポテンシャルを引き出してくれる本です!
RはRtipsというサイトが非常にまとまっていて分かりやすいです。
本を読みながら分からないところはRtipsで逆引きして勉強すると理解が深まると思います。
Rtips逆引き辞典という本も出ていますが、Webサイトで十分です。
Rのオススメ本は以下の記事で他にも紹介しています!
スッキリわかるSQL入門ドリル215問付き!スッキリわかるシリーズ
(2025/01/15 05:20:34時点 Amazon調べ-詳細)
こいつはアマゾンでの評価が高くて飛びついて買った本です。
この本に出てくるロボットがめちゃくちゃ分かりやすくSQLについて教えてくれます。
ドリルも付属として付いてくるので、手を動かして練習しながら勉強しましょう。
データベース環境がない方も問題ありません!
こちらの本では仮想データベース環境を用意してくれるのでそこからログインして勉強することができるんです。
SQL本と勉強方法については以下の記事をチェックしてみてください!
また、R/Python/SQLなどデータ分析に必要な言語とそれらの学習方法について以下の記事でまとめていますのでよければ見てみてください!
統計モデリングに強いStanという言語もあるんですよー!
統計学・機械学習の理論を勉強するのにオススメな本・教材8選!
元々バックグラウンドが理論系なので、統計学機械学習の理論に関してはたくさんオススメしたい本があるのですが、初歩的な話から名著まで厳選して紹介したいと思います。
またこの領域に関してもまずは動画教材でイメージをつかむことが有用です。
徐々にレベルが高くなっていくように並べています。
【初学者向け】データ分析コンペで楽しみながら学べるPython×データ分析講座
【オススメ度】 | |
---|---|
【講師】 | 僕自身!今なら購入時に「3X4948P6EZTY」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください! |
【時間】 | 4時間 |
【レベル】 | 初級~中級 |
先ほどはPythonのコースでしたが、こちらはデータ分析機械学習関連のUdemyコースになります!
僕自身がUdemyの色んなコースを受けてみた中で、他のコースにはないこんなコースあったらいいなみたいなコースを作ってみました。
このコースは、なかなか勉強する時間がないという方に向けてコンパクトに分かりやすく必要最低限の時間で重要なエッセンスを学び取れるように作成しています。
アニメーションを使った概要編とハンズオン形式で進む実践編に分かれており、概要編ではYoutubeの内容をより体系的にデータ分析・機械学習導入の文脈でまとめています。
データサイエンスの基礎について基本のキから学びつつ、なるべく堅苦しい説明は抜きにしてイメージを掴んでいきます。
統計学・機械学習の基本的な内容を学び各手法の詳細についてもなるべく概念的に分かりやすく理解できるように学んでいきます。
そしてデータ分析の流れについては実務に即したCRISP-DMというフレームワークに沿って体系的に学んでいきます!
データ分析というと機械学習でモデル構築する部分にスポットがあたりがちですが、それ以外の工程についてもしっかりおさえておきましょう!
続いて実践編ではデータコンペの中古マンションのデータを題材にして、実際に手を動かしながら機械学習手法を実装していきます。
ここでは、探索的にデータを見ていきながらデータを加工し、その上でLight gbm という機械学習手法を使ってモデル構築までおこなっていきます。
是非興味のある方は受講してみてください!
入門統計解析法
基本的に高校レベルの数学ができれば問題なく理解できるレベルです。
僕自身大学1年生~2年生の時に統計学を体系的に学ぶ上で非常に役立った本です。
これで統計学の土台が作り上げられたと言っても過言ではありません。オススメです。
多変量解析法入門
多変量解析に関してはこちらの1冊で基本的にカバーできると思います。
機械学習や時系列分析なども厳密には多変量解析ですが、ここではそれらを勉強する上での基礎となる回帰のお話から主成分分析などの話が丁寧に分かりやすく載っています。
単回帰、重回帰、判別分析、主成分分析のところは丁寧に読み込んでおくと良いでしょう。
データ分析のための数理モデル入門
(2025/01/15 10:42:20時点 Amazon調べ-詳細)
データサイエンスにおいて必要な数理モデルを包括的に学ぶことができるのがこの 「データ分析のための数理モデル入門」!
数式による解説を最小限におさえてイメージでつかめるようになっているため、初学者の入門書として最適です。
統計学の入門と多変量解析について理解した後に、統計モデリングや機械学習の世界に入っていく前の橋渡しとして読んでいただけると理解が深まると思います。
データ解析のための統計モデリング入門
(2025/01/15 06:41:33時点 Amazon調べ-詳細)
統計モデリングの本で、どのようにモデルを作り上げていくか非常に勉強になります。
線形モデリングからベイズにおけるモデリングまで理解が進みます。
伝統的な統計学とベイズ統計学を関連付けながら包括的に理解することができるでしょう。
はじめてのパターン認識
機械学習手法と言えばこの本!
統計学全般の理解が進んだあとは、機械学習系のアルゴリズムにもある程度触れておいた方がよいでしょう!
ほぼすべての主要機械学習手法に関して網羅していますが、結構難しいです。
はじめてのと付いていますが、概念的な説明よりも数式展開で話が進んでいくので、ある程度理解している人でないと読破するのは難しいです。
ただ名著であることは間違いないので周りの人たちと一緒に読み進めていくのが理想です。大学院時代に研究室の輪読に用いてみんなで理解を進めていきました。
これなら分かる最適化数学
あまり他のWebサイトなどで紹介されているのは見ませんが圧倒的におすすめの名著です!
数学をベースにして最適化手法について学んでいくのですが、それが実は様々な手法と関連しているということが分かってくると面白い。
それほど読みやすい本ではないのでじっくり腰を据えて読むか輪読などで回りの人と読むと良いと思います。
これを1冊しっかり理解すると統計学をまた違った視点から見ることができるようになると思います!
ゼロから作るディープラーニング
(2025/01/15 14:17:12時点 Amazon調べ-詳細)
ディープラーニングの理論について実際にゼロから実装しながら理解していく名著です。
もし機械学習を一通り勉強してディープラーニングについてさらに踏み込んで学びたい場合はこちらの書籍を読んでいただくとより一層理解が深まると思います。
非常に分かりやすく、かなり平易なところから解説されています。
ディープラーニングの勉強法やおすすめ書籍に関しては以下の記事で簡単にまとめています!
統計学・機械学習理論の本はこれ以外にも色々とオススメな本があるので是非以下の記事を参考にしてみてください!
マーケティング・ビジネスを学ぶのにオススメな本・教材5選!
正直、ここの部分が一番習得が難しかったりするんですよね・・・体系だって学ぶことはなかなか難しい。
実践で学ばないと結局机上の空論になってしまいます。
ただ実際にデータをどのようにマーケティングに活かしているかを知るのは非常に大事。
データ的側面からビジネスに落とし込む話が学べる本の中でオススメをいくつか紹介していきます。
俺たちひよっこデータサイエンティストが世界を変える
手前味噌で恐縮なのですが、僕自身が「俺たちひよっこデータサイエンティストが世界を変える」という書籍を出版しています。
具体的なデータサイエンティストの仕事について分かりやすく書いている本がなかったので自分で執筆しました!
ストーリー形式で分かりやすく書いていますので、ぜひ最初に目を通していただけるとイメージが湧くと思います。
価格は300円ちょっとですし、Kindle unlimitedであれば無料で読めるのでぜひチェックしてみてくださいね!
仕事ではじめる機械学習
この本は、ビジネス観点から機械学習について教えてくれる良書です。
個人的には、機械学習の書籍なのに、機械学習を使わないで解決できる方法を考えよう!と書いてある点が非常に好感を持てます。
そう、機械学習はあくまで手段であり目的ではないんです。
機械学習を導入することが目的になってしまうプロジェクトは失敗しやすいです。
何のために機械学習を導入するのか・機械学習を導入しないで解決できる方法はないのか、について考えておきましょう!
確率思考の戦略論
(2025/01/15 17:43:17時点 Amazon調べ-詳細)
言わずと知れた森岡毅さんの名著ですね。
この前に発売された「USJを変えたたった一つの考え方」は消費者視点のマーケティングを考える上で非常に勉強になる本だったのですが、こちらの「確率思考の戦略論」は一転して数学的色の非常に強い内容になっています。
USJで打ち出された様々な施策が実はこれほど精緻な計算のもと出されたものだったとは驚きました。
デジタルマーケティングを行う上で非常に重要な数字的側面を勉強できます。
堅苦しい数式などは本編と分けられていて、数学に強くない人でも分かりやすく学べるようになっています。
是非読んでみてください!
おばあちゃんがWebマーケティングを勉強して雑貨屋をV字回復!
(2025/01/15 09:36:47時点 Amazon調べ-詳細)
手前味噌ですが、僕自身がWebマーケティングを体系的に学べるストーリーを書籍としてまとめています。
Webマーケティングを学ぶのであれば参考にしてみてください!
おばあちゃんがWebマーケティングを駆使して雑貨屋を立て直していくストーリー。
Webマーケティングの全体感をつかむためにまず最初に読んで欲しいです。
価格は300円ちょっとですし、Kindle unlimitedであれば無料で読めるのでぜひチェックしてみてくださいね!
【入門から実践まで】Webマーケティングの全体像とデータ活用を短時間で学び実際にSEO集客ツールを作ってみよう!
【オススメ度】 | |
---|---|
【講師】 | 僕自身!今なら購入時に「3X4948P6EZTY」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください! |
【時間】 | 2.5時間 |
【レベル】 | 初級 |
こちらも手前味噌ですが、僕自身の作成したコースになります。
Webマーケティングについて幅広く学べると同時にデータ分析についても簡単に理解した上で、最終的には簡単なSEOツールを作成していきます。
Webマーケティングの概要を理解したい方にもオススメですし、実際にプログラミング言語を使ってWebマーケのツールを実装してみたい方にもオススメの講座になっています!
Twitterアカウント(@statistics1012)にメンションいただければ2000円以下になる講師クーポンを発行できます!
ちなみにデジタルマーケティングを学ぶ上で学ぶオススメ本は以下にまとめています。
データサイエンスを学ぶ上でオススメな本 まとめ
本記事で紹介してきた本はどれもデータサイエンスを本格的に学ぶ上で身になる本です!
是非手に取ってみてください。
データサイエンスの理論を学ぶ上ではエッセンスが書籍に詰まっているので書籍を読んで欲しいのですが、全体感をつかむ上ではまず本でない方がよいと思っています。
最初の取っ掛かりとしては分かりにくく挫折してしまう人が多いイメージを持っています。
そのため、適宜紹介したUdemyの動画でぜひ学んでみてください!
書籍やUdemyで学びながらも並行して手を動かすためにデータ分析コンペNishikaなどを利用してみることをオススメします。
以下のトレーニングコンペが様々な構造データに対してベーシックなスキルを付けられるのでオススメです!
・テーブルデータ: 【トレーニングコンペ】中古マンション価格予測
・画像データ:【トレーニングコンペ】絵巻物・絵本の画像分類
・テキストデータ:【トレーニングコンペ】文学:芥川龍之介
もしモチベーションが保てないという人にはプログラミングスクールを受講するのも1つの手です。
僕自身はテックアカデミーを受講した経験があります!
テックアカデミーは高すぎる・・・という方には当メディアが展開するプログラミングスクール「スタアカ」をオススメします!
どのスクールよりも安い格安でデータサイエンスが一通り学べます!
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったりする盛りだくさんの内容になってます!
データサイエンティストを目指すためのロードマップを以下にまとめているのでこちらもあわせてチェックしてみてくださいね!