こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
データサイエンティストの腕試しの場として有名なKaggle!!
Kaggleでは、世界中の名だたるデータサイエンティストが常に凌ぎを削っています。
Kaggleは実は初心者にもオススメなコミュニティなんです!
少しデータサイエンスを学んだ後は、実際にKaggleのデータを触ってみるとよいでしょう!
ちなみに日本発のデータ分析コンペにはNishikaやSignateなどがあり、Nishikaは比較的新しいデータコンペなのでKaggle前の初心者の腕試しにオススメです!
この記事では、
・Kaggleとは何か
・Kaggleの使い方
・Kaggle挑戦前の勉強法
について解説していきます。
Kaggleとは
Kaggleとはデータサイエンティスト40万人を超える世界中のデータサイエンティストがひしめき合うコミュニティ。
そんなKaggleの基本構造は、企業が与えた課題に対して腕に自信のあるデータサイエンティストたちが挑む。
数か月の期間、与えられたデータを基に試行錯誤して最適なモデルを構築したチームにはあらかじめ決められていた賞金が付与されるというもの。
実際に2020年1月時点で開催中のコンペティションは以下の通りでした。
一番賞金総額が多いコンペは何と100万ドル!!日本円にして1億円!
何とも夢のあるコミュニティーですね。
Kaggleにはランクがあり、10以内入賞するとゴールドメダルがもらえるのですがゴールドメダルを5回手に入れるとグランドマスターという最高位の称号を得ることができます。
グランドマスターの方たちの登壇が以下にまとめられていて非常に面白いので是非見てみてください!
Kaggleを生業にしているKagglerと呼ばれる人たちもいるくらい、Kaggleは非常に盛り上がりを見せています。
企業は賞金というインセンティブを用意することで、自社のデータ活用を世界的な水準まで押し上げることが可能です。
そして、活躍の場が制限されていたデータサイエンティストがKaggleによって日の目を浴びることになりました。
企業にとっても個人にとってもWin-Winな場になっているんです!
初心者でも全然臆さずに交流すると良いよ!
Kaggleの使い方
さて、そんなKaggleですが、実際にどのように使っていけばよいのか簡単に解説していきます。
Kaggleに登録した後はまずは、タイタニックのデータセットを触ってみるとよいでしょう!
有名なタイタニックの生死予測データはKaggle入門に最適です!
まずは、Overviewを見てみましょう!
そこにデータの概況などやどのように評価されるか?どのように提出するのか?などが載っています。
続いてDataという部分。こちらに詳しくデータセットについての記載があります。
ここからデータセットをダウンロードすることが可能です。
そして一番Kaggleで大事なのがNotebookという部分。
こちらに他の人がどのように考えてどのようにコーディングしたかが細かく載っています。
自分の作ったモデルを共有してくれるなんてめちゃくちゃ親切!
これが初心者からするとめちゃくちゃ嬉しいんですよねー!
このNotebookを沿って実装するだけでそれなりのスコアを叩きだすことが可能です。
全て英語で記載されているので少し抵抗があるかもしれませんが、基本となるコードは全世界共通なので、なんとか頑張って読み解きましょう!
そしてDisucussionという場所ではユーザー同士のコミュニケーションが行われています。
何か質問したいことがあれば臆さずここに投げるとよいでしょう!
Kaggleの世界にどっぷり浸かりましょう!!
Kaggleにサブミットする前準備と勉強法
基本的にKaggleの中で勉強していけば良いんですが、軌道に乗る前の前提知識を付けるために何をすればよいか見ていきましょう!
以下の3ステップで見ていきましょう!
・統計の基礎知識を身に付ける
・Python/Rが扱えるようになる
・機械学習手法の理解と実装
Kaggleマスターの秋山さんが監修されている「データサイエンス全般を学び、Kaggleに挑戦していくコース」がAidemyというスクールから公開されていますのでおすすめです!
統計の基礎知識を身に付ける
まずは、全ての土台となる統計の基礎知識を身に付けていきます。
統計の知識としては記述統計と推計統計を主に学んでいきます。
平均・分散の考え方から統計的検定まではしっかりおさえましょう!
以下の書籍で学ぶことが可能!
書籍だとちょっと・・・という方はぜひ以下のUdemy講座を試してみてください!
僕自身がUdemyの色んなコースを受けてみた中で、他のコースにはないこんなコースあったらいいなみたいなコースを作ってみました。
このコースは、なかなか勉強する時間がないという方に向けてコンパクトに分かりやすく必要最低限の時間で重要なエッセンスを学び取れるように作成しています。
アニメーションを使った概要編とハンズオン形式で進む実践編に分かれており、概要編では体系的にデータ分析・統計学・機械学習導入の文脈でまとめています。
データサイエンスの基礎について基本のキから学びつつ、なるべく堅苦しい説明は抜きにしてイメージを掴んでいきます。
統計の知識はただ数式をながめならインプットするのは退屈なのでサラッと流しながら読むことが大事。
以下の記事で詳しくまとめていますのであわせてチェックしてみてください!
Python/Rが扱えるようになる
まずは、PythonもしくはRが使えるようにならないといけません。
データ解析だけならどちらでも基本問題ないのですが、世界的にもポピュラーでリファレンスが多いことも考えるとPythonの方がオススメです!
なお、僕はどっちも使いますが大学の研究ではRをメインで使っていたので実はR屋です。
RやPythonを勉強するために必要な書籍を以下のまとめています!
また、Python言語を勉強するのであれば圧倒的にPyQがオススメです!
PyQの体験談を記事にしているのでよければチェックしてみてください!
PyQは敷居が低くコーディングも簡単ですが、出来ることが多く奥が深い言語です。
短期的にPythonを習得する方法を以下の記事でまとめていますのであわせてチェックしてみてください!
またPythonでできることを以下の記事でまとめています。
KaggleにはPythonでできることのうち一部の機能しか必要ないですが、実はWebアプリケーション開発やAPI連携などサーバーサイド言語としての機能も併せ持つ言語なんです。
興味のある方はぜひチェックしてみてください!
機械学習手法の理解と実装
PythonやRが使えるようになっても機械学習手法の知識がないといけません。
機械学習を理解する上ではある程度の数学理解とPythonでの実装の両輪ができるレベルまで欲しいところです。
機械学習の中でもディープラーニングまで踏み込んで勉強したい場合は、テックアカデミーというプログラミングスクールもしくは以下の書籍をおすすめします!
(2024/12/10 10:11:32時点 Amazon調べ-詳細)
書籍は超絶おすすめな内容です!
テックアカデミーのAIコースに関しては以下の記事で体験談をレビューしていますのであわせてチェックしてみてください!
https://toukei-lab.com/techachademy-ai
テックアカデミーやAidemyなどのプログラミングスクールは僕自身過去受講したことがありある程度オススメは出来るのですが、受講料が非常に高い・・・そんな方のために僕自身が今までの経験をもとに詰め込んだスタアカ(スタビジアカデミー)というスクールを作成いたしました!
破格での展開となっておりますので興味のある方は是非チェックしてみてください!
公式サイト:https://toukei-lab.com/achademy/
【価格】 | 98,000円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【データサイエンティスト範囲】 | Python、機械学習、統計学、ディープラーニングからDXの考え方・機械学習のビジネス導入・SQLまで必要な要素を全て網羅 |
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
ただここまで来てPython・Rそして機械学習手法の理解が進んでも、実際のデータでは様々な困難があります。
地味なデータクレンジングや特徴量抽出など!
そんなデータエンジニアリングの実践力を高める上でKaggleは最適なのです!
そしてそんなエンジニアリングの能力を高めるために以下の書籍がめちゃくちゃオススメです!
結局手法が実装は簡単にライブラリ実装できるんですが、データを扱う勘所が分からないとKaggleで好成績を残せません。
ぜひこの書籍を読んでKaggleに挑戦してみましょう!
ただKaggleだと上位ランカーが強すぎてモチベーションにつながりにくい可能性もあります。
その場合はまずは、日本発のデータコンペであるNishikaなどで腕試ししてみるのもおすすめです!
Nishikaの中の以下のトレーニングコンペがオススメです。
・テーブルデータ: 【トレーニングコンペ】中古マンション価格予測
・画像データ:【トレーニングコンペ】絵巻物・絵本の画像分類
・テキストデータ:【トレーニングコンペ】文学:芥川龍之介
ここらへんに取り組めば、テーブルデータ・画像データ・テキストデータの基本が身につきます!
Kaggle まとめ
Kaggleについて簡単に見てきました!
ある程度Python・Rが書けるようになってきて、機械学習の基礎も理解できるようになったら、Kaggleに挑戦してみましょう!
初心者でも全く問題ない!Kaggleに入門してデータサイエンティストの道を歩むんです!
Kaggleは実践的なエンジニアリングが体験できるのでめちゃくちゃオススメです!
腕試しにもなるし!!
データサイエンティストになるための学習方法は以下でまとめています。
データサイエンティストになるための学習ができるスクールは以下の記事でまとめています!