データ解析

【初心者向けKaggle入門】Kaggleサブミットの前準備と勉強法!

記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、Kaggleについて解説していきKaggleに挑戦するまでにどのようなことを勉強しておいたらよいのか丁寧に解説していきます。ある程度データサイエンスの土台が出来た後はKaggleに挑戦し、世界各国の猛者と凌ぎを削りましょう!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

データサイエンティストの腕試しの場として有名なKaggle!!

Kaggleでは、世界中の名だたるデータサイエンティストが常に凌ぎを削っています。

ロボたん
ロボたん
Kaggleと聞くとなんだか凄いコミュニティのようで入りにくいなー!!
ウマたん
ウマたん
そんなことはないんだ!初心者にも優しいコミュニティなんだよー!

Kaggleは実は初心者にもオススメなコミュニティなんです!

少しデータサイエンスを学んだ後は、実際にKaggleのデータを触ってみるとよいでしょう!

ちなみに日本発のデータ分析コンペにはNishikaSignateなどがあり、Nishikaは比較的新しいデータコンペなのでKaggle前の初心者の腕試しにオススメです!

【徹底比較】データ分析コンペそれぞれの特徴とトレーニング実装当サイト【スタビジ】の本記事では、データ分析コンペそれぞれの特徴について徹底的に見ていきます。実はデータ分析コンペのサービスはKaggleだけではなく、いくつかの種類があるので是非色んなコンペに参加してみてください!トレーニングコンペの実装とデータ分析コンペに臨む上での勉強法についてもまとめていきますよー!...

この記事では、

・Kaggleとは何か
・Kaggleの使い方
・Kaggle挑戦前の勉強法

について解説していきます。

Kaggleとは

Kaggleとはデータサイエンティスト40万人を超える世界中のデータサイエンティストがひしめき合うコミュニティ

そんなKaggleの基本構造は、企業が与えた課題に対して腕に自信のあるデータサイエンティストたちが挑む。

数か月の期間、与えられたデータを基に試行錯誤して最適なモデルを構築したチームにはあらかじめ決められていた賞金が付与されるというもの。

実際に2020年1月時点で開催中のコンペティションは以下の通りでした。

kaggle list

一番賞金総額が多いコンペは何と100万ドル!!日本円にして1億円!

何とも夢のあるコミュニティーですね。

Kaggleにはランクがあり、10以内入賞するとゴールドメダルがもらえるのですがゴールドメダルを5回手に入れるとグランドマスターという最高位の称号を得ることができます。

ウマたん
ウマたん
グランドマスターは世界で150人ほどしかいないんだよー!

グランドマスターの方たちの登壇が以下にまとめられていて非常に面白いので是非見てみてください!

Kaggleを生業にしているKagglerと呼ばれる人たちもいるくらい、Kaggleは非常に盛り上がりを見せています。

企業は賞金というインセンティブを用意することで、自社のデータ活用を世界的な水準まで押し上げることが可能です。

そして、活躍の場が制限されていたデータサイエンティストがKaggleによって日の目を浴びることになりました。

企業にとっても個人にとってもWin-Winな場になっているんです!

ロボたん
ロボたん
素晴らしいコミュニティだね!!
ウマたん
ウマたん
データサイエンティスト同士で交流も生まれて刺激も与えあえるしねー!

初心者でも全然臆さずに交流すると良いよ!

Kaggleの使い方

PC

さて、そんなKaggleですが、実際にどのように使っていけばよいのか簡単に解説していきます。

Kaggleに登録した後はまずは、タイタニックのデータセットを触ってみるとよいでしょう!

有名なタイタニックの生死予測データはKaggle入門に最適です!

まずは、Overviewを見てみましょう!

そこにデータの概況などやどのように評価されるか?どのように提出するのか?などが載っています。

kaggle overview

続いてDataという部分。こちらに詳しくデータセットについての記載があります。

kaggle-data

ここからデータセットをダウンロードすることが可能です。

そして一番Kaggleで大事なのがNotebookという部分。

kaggle notebook

こちらに他の人がどのように考えてどのようにコーディングしたかが細かく載っています。

自分の作ったモデルを共有してくれるなんてめちゃくちゃ親切!

これが初心者からするとめちゃくちゃ嬉しいんですよねー!

このNotebookを沿って実装するだけでそれなりのスコアを叩きだすことが可能です。

ロボたん
ロボたん
え?コンペなのに自分のコードを公開しちゃうの??
ウマたん
ウマたん
もちろん上位入賞のモデルは公開されていないよ!ただ公開されているコードだけでもある程度高いスコアをたたき出せるんだよー!

全て英語で記載されているので少し抵抗があるかもしれませんが、基本となるコードは全世界共通なので、なんとか頑張って読み解きましょう!

kaggle disucussion

そしてDisucussionという場所ではユーザー同士のコミュニケーションが行われています。

何か質問したいことがあれば臆さずここに投げるとよいでしょう!

Kaggleの世界にどっぷり浸かりましょう!!

Kaggleにサブミットする前準備と勉強法

メモ

基本的にKaggleの中で勉強していけば良いんですが、軌道に乗る前の前提知識を付けるために何をすればよいか見ていきましょう!

以下の3ステップで見ていきましょう!

・統計の基礎知識を身に付ける
・Python/Rが扱えるようになる
・機械学習手法の理解と実装

Kaggleマスターの秋山さんが監修されている「データサイエンス全般を学び、Kaggleに挑戦していくコース」がAidemyというスクールから公開されていますのでおすすめです!

統計の基礎知識を身に付ける

まずは、全ての土台となる統計の基礎知識を身に付けていきます。

統計の知識としては記述統計と推計統計を主に学んでいきます。

平均・分散の考え方から統計的検定まではしっかりおさえましょう!

以下の書籍で学ぶことが可能!

created by Rinker
¥3,190
(2024/10/04 18:16:20時点 Amazon調べ-詳細)

書籍だとちょっと・・・という方はぜひ以下のUdemy講座を試してみてください!

Udemy-course
\30日以内なら返金無料/このコースを見てみる

僕自身がUdemyの色んなコースを受けてみた中で、他のコースにはないこんなコースあったらいいなみたいなコースを作ってみました。

このコースは、なかなか勉強する時間がないという方に向けてコンパクトに分かりやすく必要最低限の時間で重要なエッセンスを学び取れるように作成しています。

アニメーションを使った概要編ハンズオン形式で進む実践編に分かれており、概要編では体系的にデータ分析・統計学・機械学習導入の文脈でまとめています。

データサイエンスの基礎について基本のキから学びつつ、なるべく堅苦しい説明は抜きにしてイメージを掴んでいきます。

統計の知識はただ数式をながめならインプットするのは退屈なのでサラッと流しながら読むことが大事。

ウマたん
ウマたん
複雑な数式が登場したらまずは具体的な数字をあてはめてみると理解が早いよー!

以下の記事で詳しくまとめていますのであわせてチェックしてみてください!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...

Python/Rが扱えるようになる

まずは、PythonもしくはRが使えるようにならないといけません。

データ解析だけならどちらでも基本問題ないのですが、世界的にもポピュラーでリファレンスが多いことも考えるとPythonの方がオススメです!

なお、僕はどっちも使いますが大学の研究ではRをメインで使っていたので実はR屋です。

RやPythonを勉強するために必要な書籍を以下のまとめています!

R Pythonの本
厳選10冊!データ解析(R・Python)の勉強に参考になるおすすめ本当サイト【スタビジ】の本記事では、PythonとRを勉強するのにおすすめな書籍を徹底的にまとめていきます!書籍だと続かない・・・という人のために書籍以外の勉強法についても紹介していきますのでぜひチェックしてみてください!...

また、Python言語を勉強するのであれば圧倒的にPyQがオススメです!

PyQで学習してみる!

PyQの体験談を記事にしているのでよければチェックしてみてください!

【体験談】PyQの評判は?3か月本気でPythonを勉強してみたので徹底レビュー!PyQはPythonを学ぶ上で非常にオススメで評判の高いサービスです。ただ、他のサービスとの違いが分かりにくいのも事実。そこで当サイト【スタビジ】では、実際にPyQを3か月体験した僕がPyQのメリット・デメリット・評判について徹底的にレビューしていきます!...

PyQは敷居が低くコーディングも簡単ですが、出来ることが多く奥が深い言語です。

短期的にPythonを習得する方法を以下の記事でまとめていますのであわせてチェックしてみてください!

Python独学勉強法
【Python独学勉強法】Python入門を3ヶ月で習得できる学習ロードマップ当サイト【スタビジ】の本記事では、過去僕自身がPythonを独学を駆使しながら習得した経験をもとにPythonを効率よく勉強する方法を具体的なコード付き実装例と合わせてまとめていきます。Pythonはできることが幅広いので自分のやりたいことを明確にして勉強法を選ぶことが大事です。...

またPythonでできることを以下の記事でまとめています。

Pythonでできること
【初心者向け】Pythonでできること7選!サンプルコードをまじえて解説!当サイト【スタビジ】本記事では、Pythonでできることを7つまとめていきます!!Pythonで何ができるのか分からない状況から深い理解にもっていきますよー!実際にPythonでの実装例や勉強方法も取り上げているのでぜひご自分の環境で手を動かして実装してみてくださいね!...

KaggleにはPythonでできることのうち一部の機能しか必要ないですが、実はWebアプリケーション開発やAPI連携などサーバーサイド言語としての機能も併せ持つ言語なんです。

興味のある方はぜひチェックしてみてください!

ウマたん
ウマたん
まずは触ってみよう!

機械学習手法の理解と実装

PythonやRが使えるようになっても機械学習手法の知識がないといけません。

機械学習を理解する上ではある程度の数学理解とPythonでの実装の両輪ができるレベルまで欲しいところです。

機械学習の中でもディープラーニングまで踏み込んで勉強したい場合は、テックアカデミーというプログラミングスクールもしくは以下の書籍をおすすめします!

書籍は超絶おすすめな内容です!

テックアカデミーのAIコースに関しては以下の記事で体験談をレビューしていますのであわせてチェックしてみてください!

https://toukei-lab.com/techachademy-ai

テックアカデミーやAidemyなどのプログラミングスクールは僕自身過去受講したことがありある程度オススメは出来るのですが、受講料が非常に高い・・・そんな方のために僕自身が今までの経験をもとに詰め込んだスタアカ(スタビジアカデミー)というスクールを作成いたしました!

破格での展開となっておりますので興味のある方は是非チェックしてみてください!

スタアカトップ公式サイト:https://toukei-lab.com/achademy/

【価格】98,000円
【オススメ度】
【サポート体制】
【データサイエンティスト範囲】Python、機械学習、統計学、ディープラーニングからDXの考え方・機械学習のビジネス導入・SQLまで必要な要素を全て網羅

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定

ただここまで来てPython・Rそして機械学習手法の理解が進んでも、実際のデータでは様々な困難があります。

地味なデータクレンジングや特徴量抽出など!

そんなデータエンジニアリングの実践力を高める上でKaggleは最適なのです!

そしてそんなエンジニアリングの能力を高めるために以下の書籍がめちゃくちゃオススメです!

created by Rinker
¥3,536
(2024/10/05 08:37:25時点 Amazon調べ-詳細)

結局手法が実装は簡単にライブラリ実装できるんですが、データを扱う勘所が分からないとKaggleで好成績を残せません。

ぜひこの書籍を読んでKaggleに挑戦してみましょう!

ただKaggleだと上位ランカーが強すぎてモチベーションにつながりにくい可能性もあります。

その場合はまずは、日本発のデータコンペであるNishikaなどで腕試ししてみるのもおすすめです!

Nishikaの中の以下のトレーニングコンペがオススメです。

ここらへんに取り組めば、テーブルデータ・画像データ・テキストデータの基本が身につきます!

Kaggle まとめ

Kaggleについて簡単に見てきました!

ある程度Python・Rが書けるようになってきて、機械学習の基礎も理解できるようになったら、Kaggleに挑戦してみましょう!

初心者でも全く問題ない!Kaggleに入門してデータサイエンティストの道を歩むんです!

ロボたん
ロボたん
データサイエンスの能力が順位付けされて賞金が出るなんてめちゃくちゃやる気でるなー!!!
ウマたん
ウマたん
Kaggle上位入賞目指して頑張ろう!!!

Kaggleは実践的なエンジニアリングが体験できるのでめちゃくちゃオススメです!

腕試しにもなるし!!

データサイエンティストになるための学習方法は以下でまとめています。

【5分で分かる】データサイエンティストに必要なスキルと独学勉強ロードマップ!当サイト【スタビジ】の本記事では、データサイエンティストに求められるスキルとそれを身に付けるための勉強法について徹底的にまとめていきます!入門者でも、しっかりデータサイエンティストについて理解しある程度独学で駆け出しの状態までいけることを目指します。...

データサイエンティストになるための学習ができるスクールは以下の記事でまとめています!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら