事業会社でのデータサイエンティストを経て現在は独立した様々な企業の分析案件を請け負っている、ウマたん(@statistics1012)です。
マーケ・ビジネスサイドとデータサイエンスサイドがグッと近くなる未来を夢見ています。
この記事ではそんな僕が、
・今流行りのデータサイエンティストがどういう職業なのか
・どう勉強していけばよいか
お伝えしていきたいと思います。
結論から言うとデータサイエンティストはビジネス・エンジニアリング・データサイエンスの3つのスキルが備わっている人材。
そうなんです。データサイエンティストのスキルはなかなか幅広いんです!
これらを学ぶ上では比較的以下のサービスがオススメです。
ただ、どれもデータサイエンス特化ではないしバランスよくデータサイエンティストになるためのスキルを身につけることはできないんです・・・ということでデータサイエンティスト特化のオンラインスクール「スタビジアカデミー」を作っちゃいました!
やる気のある方の受講お待ちしております!
宣伝はこのくらいにして、この記事ではデータサイエンティストについてしっかり理解して、データサイエンティストの勉強方法を見ていきましょう!
気になるところへ読み飛ばす
目次
データサイエンティストとは
データサイエンティストとはどんな職業なのか!
以下の動画でも解説しています!
データサイエンティストは、データをサイエンスする人!(そのまんま笑)
何かしらのデータを原料に自分の知識とスキルと経験を総動員して新たな知見を導き出すプロフェッショナル。
ただ意外と業務範囲は広く、分析設計やデータの収集・加工、アウトプットの解釈から示唆出し、そして事業戦略に落とし込むところまでやるのがデータサイエンティストのお仕事なんです。
データサイエンティストは、21世紀で最もセクシーな職業と言われておりますが・・・
データサイエンティスト的な職業は何がセクシーやねん!って思うくらい地味な作業多いので実態はそんな思うほどセクシーでもなかったりします笑
データサイエンティストという言葉は一時流行って、最近では廃れてきているように感じるかもしれませんが、実際Googleトレンドで調べてみると上昇傾向にあるんです。
データサイエンティストの需要というのは年々伸びてきており、これからもある一定の割合で伸びていくことが予想されます。
しかしデータサイエンティストって定義が難しくて、ただPythonやRが書ければデータサイエンティストかというとそんなことはないんですね。
続いての章では、そんなデータサイエンティストは具体的にどのようなスキルを持っている人なのか見ていきましょう!
データサイエンティストに必要なスキルは?
先ほどもお伝えしましたが、データサイエンティストに必要な能力は、主に3つのスキルに分かれます。
・エンジニアリング・ITのスキル
・統計学や機械学習理論のスキル
・マーケティング・ビジネスのスキル
エンジニアリング・ITスキル
こちらはデータの抽出・加工、分析、データ連携、データベース構築などのスキル。
SQL・R・Pythonなどのスキルセットが望ましいと思ってください。
実際にSQLでデータを引っ張ってくるところだったり、データを統計解析するところ、機械学習エンジニアリング、またある程度のWebサイトやDBの構造も把握しておかないといけません。
ゴリゴリのエンジニアになる必要はありませんが、おさえておくべき部分はおさえておきましょう!
エンジニアリング・IT領域に抵抗がなく独学でもやれそうな方は、Udemyなどのオンラインコースでの学習がオススメです。
以下の記事でUdemyでオススメの講座をまとめているので、チェックしてみて下さい。
ちなみに分析におけるエンジニアリング領域はデータ分析コンペNishikaなどで手を動かしながら身につけることをオススメします。
NishikaはKaggleと比べて順位をあげやすいので最初はオススメです。
ただ、プログラミング自体が初めて!という状態なのであれば思い切ってプログラミングスクールに通うことをオススメします。
プログラミングスクールは有象無象にありますが、僕自身過去に通ったことがあるテックアカデミーをオススメしています。
自分でモチベーションを高め続けられる自信があるのであれば書籍やWebサービスを利用するのも手です。
以下の記事でSQLのオススメ本とPython・Rのオススメ本やWebサービス・プログラミングスクールを徹底的にまとめていますので是非参考にしてみてください!
・厳選10冊!データ解析(R・Python)の勉強におすすめな本
・SQLを最速でマスターできるオススメ本と勉強方法!
・【入門者向け】Pythonを効率良く学習できるサイトおすすめ7選!
・【徹底比較】データサイエンティストのための学習ができるスクール9選!
またPythonを学習するオススメ法についてもまとめているのでよければご覧ください!
ベースとなるITリテラシーを高める方法は以下でまとめているので参考にしてみてください!
統計学や機械学習理論のスキル
こちらは、実際にエンジニアリングした結果を正しく統計的に解釈することができるか。
データに惑わされない勘所を押さえておくべきです。
検定を行った時のよくある勘違いや・偽相関・時系列データの見せかけの相関などエンジニアリングして出力した結果に対して解釈を間違えると大変なことになるパターンもあります。
現段階で、最も僕自身強いのがここ。
統計学の知識はデータを正しく解釈する上で必要なスキルです。
統計学について・統計学のオススメ本を以下の記事にまとめていますのでよければご覧ください!
マーケティング・ビジネスのスキル
そして最後にマーケティング・ビジネス視点の能力。
これがないと、分析をして結果解釈までして果たしてその後どうするかまで導き出せません。
マーケティング・ビジネスの能力がないと、エンジニアリングスキルも統計スキルも無用の長物になってしまうことが多いです。
実際にデータの要件や解析を行う際も、あくまでビジネスになり得る出口を明確にしておかないと、ただの趣味になってしまいます。
正直、ビジネスに落とし込めていない趣味的解析はたくさんあります笑
3つ目の能力があってこそ、1つ目2つ目の意味が出てくるのです。
ここの部分は、実務をこなしながら勘所をつかみ学んでいくしかない領域です。
以下の記事でデータ周りのビジネス書やデジタルマーケティングのオススメ本をまとめているのでよければご覧ください!
結局データサイエンティストってのは、データを解析してそこから洞察を抽出し実際にビジネスインパクトにつなげる業務を一気通貫で行う職業なのです!
とは言っても、これを一人で全部完璧に行うのは厳しいのでチームで疑似データサイエンティストを作っているパターンも多いです。
基本的に全部をまんべんなく出来る人というよりも、どこかに強みがあって・・・という人が多いイメージです。
僕自身、元々バックグラウンドが統計で企業に入りエンジニアリング・ITスキルと、マーケティング・ビジネススキル、副業のメディア運営で同じくマーケティング・ビジネススキルを身に付けていった感じです。
割合で言うと、3:4:3くらいな気がします。
ちなみにこれが8:2:0とかだと生粋のエンジニア。0:2:8とかだとデジタルマーケターみたいなイメージです。※あくまでイメージです。
ここでは3つのスキルとして明確に定義しましたが、データサイエンティストの定義はそれほど明確ではなく、ただRが使えるだけでデータサイエンティストと呼ばれたりします。
本当の意味でのデータサイエンティストを目指すなら3つのスキルを意識して学び力を付けていきましょう。
・エンジニアリング・ITのスキル
・統計学や機械学習理論のスキル
・マーケティング・ビジネスのスキル
データサイエンティストへの勉強方法
さて、データサイエンティストに求められるスキルがどんなものなのか分かったところで実際にどのように勉強していけば良いのか見ていきましょう!
人それぞれ色んな勉強の方法がありますが、飽きずに基礎となる部分を網羅できるオススメのロードマップは以下です。
Step0:データサイエンティストについて知る
Step1:統計の基礎を学びPythonで実装
Step2:機械学習手法を学んでPythonで実装
Step3:ビジネス観点で機械学習をどう導入していくかについて学ぶ
Step4:SQLについて学ぶ
↓
エンジニア特化型に進む
ビジネス特化型に進む
ある程度の分析と集計、そして統計のスキルが身に付いた状態までは全員持っていきましょう!
そしてそこからエンジニア特化型データサイエンティストになるか、ビジネス特化型データサイエンティストになるかは自分の適性を見て選ぶと良いでしょう!
ここからそれぞれのStepを紹介していきますが、このStepを体系的に学びたいならぜひ冒頭でも紹介した「スタアカ(スタビジアカデミー)」を試してみてください!
公式サイト:https://toukei-lab.com/achademy/
【オススメ度】 | |
---|---|
【レベル】 | 初級〜中級 |
【価格】 | 980円/月〜 |
ガッツリ学んでデータサイエンティストになりたい!という方には現役データサイエンティストがメンターとして付くプランもご用意しております。
ご受講お待ちしております!
それではStepを見ていきましょう!
Step0:データサイエンティストについて知る
まず、具体的な勉強に入る前にデータサイエンティストの仕事について簡単に知っておきましょう!
手前味噌で恐縮なのですが、僕自身が「俺たちひよっこデータサイエンティストが世界を変える」という書籍を出版しています。
ストーリー形式で分かりやすく書いていますので、ぜひ最初に目を通していただけるとイメージが湧くと思います。
価格は300円ちょっとですし、Kindle unlimitedであれば無料で読めるのでぜひチェックしてみてくださいね!
Step1:統計の基礎を学びPythonで実装
統計の基礎はデータサイエンティストにとって必ずおさえておかなくてはいけない部分です。
まずは、平均・分散など統計の基本的な部分を学んで統計的検定が分かるまでいきましょう!
書籍だと以下がオススメです!
ただ、なかなかいきなり書籍は取っつきにくいと思うので以下のUdemy講座を試してみるとよいでしょう!
【初学者向け】統計学の基礎をアニメーションを通じてビジネス観点で理解していこう!
【オススメ度】 | |
---|---|
【講師】 | 僕自身!今なら購入時に「66FLEHE87LQ6」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください! |
【時間】 | 3時間 |
【レベル】 | 初級 |
手前味噌ですが、僕自身がUdemyにて統計学を網羅的に学べる講座を作っています。
そんな方に向けてアニメーションで統計学を簡単に理解してもらう講座を作りました!
ビジネス観点で必要な統計学の知識だけを抽出してまとめています。
アニメーションで学ぶ概要編とPythonで実際に手を動かしながら学んでいく実践編に分かれています。
まず、統計学の全体像とビジネスに必要な知識を学んでいきます。
そして多変量解析の領域に入りよく使われる手法を中心に学んでいきます。
ビジネスに活かせる統計学について網羅的にしっかり学ぶことが可能ですので是非受講してみてください!
統計の基礎を固める本は以下の記事でまとめています。
統計の基礎については当サイト【スタビジ】でも非常に多くの記事を書いているのでぜひチェックしてみてください!
ただ、統計の理論は退屈で勉強していて本当につらい!!そんな部分もあります。
そのため、理論だけ眺めていてもつまらない。
なるべく早い段階からPythonでの実装をしてみましょう!
Python関連のUdemy講座は以下の記事で徹底的に比較しているのでぜひチェックしてみてください!
また、Pythonの学習にはPyQというサービスが非常におすすめ!
このサービスはPythonに特化したオンライン学習サービスでとにかくコーディングしまくれます。
とにかく写経してしまくってください!
Pythonを短期間で習得する方法は以下の記事でまとめていますのであわせてチェックしてみてください!
Step2:機械学習手法を学んでPythonで実装
続いて、機械学習手法を適宜学びながらPythonで実装していくというフェーズ!
一旦統計学で土台を固めたらその後は機械学習手法の各論について学んでいきましょう!
最初から機械学習領域を理論の根っこから理解しようとすると挫折しかねないので、まずは大枠を理解してその上で手を動かしてPythonで実装をしてみましょう!
そしてさらにその中で興味の出てきた手法に関しては論文や書籍などでちょっと深堀りしてながめてみるくらいのスタンスがオススメです。
手前味噌ですが以下の僕の講座が簡単な機械学習手法をPythonで実装して実際にデータ分析コンペに提出していくのでオススメです!
僕自身がUdemyの色んなコースを受けてみた中で、他のコースにはないこんなコースあったらいいなみたいなコースを作ってみました。
このコースは、なかなか勉強する時間がないという方に向けてコンパクトに分かりやすく必要最低限の時間で重要なエッセンスを学び取れるように作成しています。
アニメーションを使った概要編とハンズオン形式で進む実践編に分かれており、概要編ではYoutubeの内容をより体系的にデータ分析・機械学習導入の文脈でまとめています。
もちろん冒頭で紹介した「スタアカ(スタビジアカデミー)」でもガッツリ機械学習を学ぶカリキュラムがあるので是非チェックしてみてくださいー!
ちなみに機械学習手法の理論に踏み込む上では少々数学が必要です。
以下の記事で必要な数学のスキルについてまとめていますが、大事なのは微分と線形代数!
理論を深めたい人はぜひ以下の書籍をチェックしてみてください!
どれも超が付くほどの良書です。
以下の記事で機械学習についてまとめているのでこちらもチェックしてみてくださいねー!
Step3:ビジネス観点で機械学習をどう導入していくかについて学ぶ
続いてビジネス観点で機械学習をどう導入していくかについて学びましょう!
統計学と機械学習の土台が出来上がったあとは、実際にどのように機械学習をビジネス導入していくか学ぶのがおすすめです。
いくら理論が分かっていても、機械学習を使ってビジネスに貢献できるかどうかはまた別問題です。
ぜひビジネス観点でどのように機械学習を導入していけばよいのか、どのような点に注意しておかなくてはいけないのか理解しておきましょう!
このフェーズではCRISP-DMというフレームワークに沿って理解していくのがよいです。
また、先ほど紹介した「【初学者向け】データ分析コンペで楽しみながら学べるPython×データ分析講座」のコースでCRISP-DMの流れでPython実装を学ぶことが可能です。
このフェーズではデータ分析コンペ「Kaggle」に挑んでみるのも良いでしょう!
まあここまでデータが綺麗に整形されていることは実務ではないので、あくまで練習ですがエンジニアリングの腕試しにはなります!
ただ、Kaggleは世界中の強者が集まっていて入賞のハードルが高いので、最初はNishikaなどの国産データコンペの方がオススメです!
以下のトレーニングコンペが様々な構造のデータに対してベーシックなスキルを付けられるのでオススメです!
・テーブルデータ: 【トレーニングコンペ】中古マンション価格予測
・画像データ:【トレーニングコンペ】絵巻物・絵本の画像分類
・テキストデータ:【トレーニングコンペ】文学:芥川龍之介
そしてデータエンジニアリングの能力を高める上で非常に有用なのがこの本!
マジで名著なのでKaggleに挑戦する人だけでなく、エンジニアリングに興味のある人は是非読んでみてください!
Step4:SQLを学ぶ
最後にSQLを学びましょう!
このフェーズは正直最後のステップに来る必要はないのですが、一旦最終Stepとして置いています。
データ分析の現場では、データの前処理加工にSQLを非常によく使います。
PythonやRといったデータ分析言語だけでなくSQLをしっかり書けるようにしておくことが大事なんです。
SQL自体はそれほど難しくありません。
以下の記事で簡単に解説していますので是非チェックしてみてください!
ちなみに「スタアカ(スタビジアカデミー)」ではPythonだけでなくSQLにも力を入れており、実務でよく使うBigQueryを導入してSQLで実データを加工集計してもらいます!
なんてったってSQLはかなり実務でよく使うので!!
特化型を選ぶ
ここまでくれば、おおかたデータサイエンティストとしての基礎は出来上がっているはずです。
ここからは、ある程度自分の適性を見極めてエンジニアリング型かビジネス型に軸足を置いて勉強していった方が良いです。
データサイエンティストって、ビジネスデザインまで出来るビジネススキル特化型とAI開発できるエンジニアスキル特化型の2極化が進むと思ってる。
どちらにも統計の知識は必要だけど統計特化型はビジネスの世界では生き残っていけなくてアカデミックの世界でバリューを発揮することになると思う。
— ウマたん@スタビジ (@statistics1012) April 25, 2020
エンジニアリング型では、
開発系の知識やより深いエンジニアリング力、データを蓄積しパイプラインを構築するスキル、ディープラーニング周りの最先端手法の知識
が欲しいです。
ディープラーニングについて学ぶならUdemyよりも書籍の方がおすすめです。
(2024/10/30 01:34:47時点 Amazon調べ-詳細)
ビジネス型では、
PM的なスキル、イシューを特定するコンサル的なビジネススキル、Webマーケティングのスキル
を学んで欲しいところです。
不偏的なビジネススキルやマーケティングスキルもデータサイエンティストには必要なんですよねー。
不偏的なビジネスのスキルは非常に重要で、このフェーズに入る前にStep0段階から並行して学んでいって欲しいところです。
一方でWeb・デジタルマーケティングのスキルも実務を遂行する上では必要です。
マーケティングの広範な知識や可視化ツールの使い方、フロント言語(HTML・CSS・JS)、SEOやMAの知識などが必要。
以下の書籍はテクノロジーよりのWebマーケティングが学べるのでオススメ!
(2024/10/30 06:51:31時点 Amazon調べ-詳細)
またこちらも僕が講師を務めるコースですが、以下のコースがWebマーケティングを網羅的に学べるのでオススメです!
【入門から実践まで】Webマーケティングの全体像とデータ活用を短時間で学び実際にSEO集客ツールを作ってみよう!
【オススメ度】 | |
---|---|
【講師】 | 僕自身!今なら購入時に「66FLEHE87LQ6」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください! |
【時間】 | 2.5時間 |
【レベル】 | 初級 |
まずは、僕のコースを紹介しておきます!
Webマーケティングにおいて必ずおさえておいて欲しい内容を網羅的にまとめています!
Webマーケティングには集客・行動・CV・リピートの4つの観点、そしてそれぞれの土台となるデータへの理解が必要です。
この講座を受講いただけると、それらの全体感がつかめるようになっています。
また、Webマーケティングについて幅広く学べると同時にデータ分析についても簡単に理解した上で、最終的には簡単なSEOツールを作成していきます。
Webマーケティングの概要を学びたい人にも、プログラミング言語Pythonを使ったSEO集客の簡易プログラム作成に興味のある人にもオススメな内容になっています。
Twitterアカウント(@statistics1012)にメンションいただければ2000円以下になる講師クーポンを発行できますよー!
書籍でインプットする場合は以下の記事でまとめています。
ここからは、実務を通して学んでいく場面が多いです。
書籍や教材で学んでいても机上の空論になってしまうのでぜひ自分の力でアウトプットしながらガンガン吸収していってくださいねー!
データサイエンティストへの勉強をしていく上で念頭に置いておいて欲しいコト
実は、データサイエンティストというかデータを触り付加価値を生み出していく人間として気を付けなくてはいけないなと思っていることがあります。
データ出し屋さんにならない
一つ目がデータ出し屋さんになってはいけないということ。
受け身でいるとデータ出し屋さんになってしまい、言われたデータをただ出す、何の付加価値もない人間になりかねません。
それを避けるためには、データ出しを頼まれた時もなぜそのようなデータが必要なのか・何のためにデータを出すのか・必要なデータはこれでよいのか?という問いを常に考えなくてはいけません。
また、受け身になるのではなく自ら仮説を立ててデータを分析していく姿勢が必要です。
近視眼的にならない
データを触っていると、つい細かいところに目がいってしまい、近視眼的になってしまうのですが実は細部を考えることは全体から見たらほぼ意味がないこともあります。
視座を高く持ち、全体を見渡してインパクトのあるところを攻めましょう!
データサイエンティストは、かっこよさそうに見えて地味なことも多いです。目立つためにはインパクトの大きいところを攻めなくては!
とりあえずDoする
正直「近視眼的にならない」という要素との両立が難しい部分もあるのですが、とにかく手を動かしてやってみるという部分も大事だと感じています。
視座を高く持って、上位概念から設計を考えることは確かに大事なのですが、PlanばかりしていてDoしないと結局なにも生まれません。
そこである程度は「とりあえずやってみる」という姿勢も大事だなと感じています。
スタンスとしては、「とりあえずやってみる」けど時々立ち止まって全体を見渡すみたいな!
データサイエンティストへの勉強ロードマップ まとめ
データサイエンティストのスキルや勉強法についてまとめてきましたが、これだけやれば完璧というものはありません。
以下の動画でも解説していますので改めてチェックしてみてください!
常に向上心を持ってデータから価値を生み出す人間として日々精進していかなくてはいけなせん。
まだまだ貴重な人材で業界で足りていないので、データサイエンティストを目指す人が少しでも増えてくれたら幸いです!
最後にデータサイエンティストへのロードマップと注意点をまとめておきましょう!
データサイエンティストには
ビジネス・エンジニアリング・データサイエンスの3つのスキルが必要
【ロードマップ】
Step0:データサイエンティストについて知る
Step1:統計の基礎を学びPythonで実装
Step2:機械学習手法を学んでPythonで実装
Step3:ビジネス観点で機械学習をどう導入していくかについて学ぶ
Step4:SQLについて学ぶ
↓
エンジニア特化型に進む
ビジネス特化型に進む
【オススメ勉強サービス】
・ビジネス・理論なら書籍
・データサイエンスや分析の力を包括的に身につけるならスクール
・実践力を付けていくにはNishikaなどのデータコンペ
・データ出し屋さんにならない
・近視眼的にならない
・とりあえずDoする
なんどもしつこいですが、データサイエンティストを目指すならとりあえず当メディアが運営するスクール「スタアカ(スタビジアカデミー)」を検討してみてください!!
公式サイト:https://toukei-lab.com/achademy/
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
そしてそしてデータサイエンティストに必要な機械学習・統計のスキル、Pythonのスキルを学ぶために以下の記事もぜひチェックしてみてください!
イラスト出典:Illustration by Stories by Freepik