データ解析

【初心者向けKaggle入門】Kaggleについて0から解説していくよ!

こんにちは!

消費財メーカーでデジタルマーケター・データサイエンスティストをやっているウマたん(@statistics1012)です!

データサイエンティストの腕試しの場として有名なKaggle!!

Kaggleでは、世界中の名だたるデータサイエンティストが常に凌ぎを削っています。

ロボたん
ロボたん
Kaggleと聞くとなんだか凄いコミュニティのようで入りにくいなー!!
ウマたん
ウマたん
そんなことはないんだ!初心者にも優しいコミュニティなんだよー!

Kaggleは実は初心者にもオススメなコミュニティなんです!

少しデータサイエンスを学んだ後は、実際にKaggleのデータを触ってみるとよいでしょう!

この記事では、Kaggleとは何か、Kaggleの使い方について解説していきます。

Kaggleとは

Kaggleとはデータサイエンティスト40万人を超える世界中のデータサイエンティストがひしめき合うコミュニティ。

そんなKaggleの基本構造は、企業が与えた課題に対して腕に自信のあるデータサイエンティストたちが挑む。

数か月の期間、与えられたデータを基に試行錯誤して最適なモデルを構築したチームにはあらかじめ決められていた賞金が付与されるというもの。

実際に現段階(2020年1月)で開催中のコンペティションは以下の通り。

kaggle list

一番賞金総額が多いコンペは何と100万ドル!!日本円にして1億円!

何とも夢のあるコミュニティーですね。

Kaggleにはランクがあり、10以内入賞するとゴールドメダルがもらえるのですがゴールドメダルを5回手に入れるとグランドマスターという最高位の称号を得ることができます。

グランドマスターの方たちの登壇が以下にまとめられていて非常に面白いので是非見てみてください!

Kaggleを生業にしているKagglerと呼ばれる人たちもいるくらい、Kaggleは非常に盛り上がりを見せています。

企業は賞金というインセンティブを用意することで、自社のデータ活用を世界的な水準まで押し上げることが可能です。

そして、活躍の場が制限されていたデータサイエンティストがKaggleによって日の目を浴びることになりました。

企業にとっても個人にとってもWin-Winな場になっているんです!

ロボたん
ロボたん
素晴らしいコミュニティだね!!
ウマたん
ウマたん
データサイエンティスト同士で交流も生まれて刺激も与えあえるしねー!

初心者でも全然臆さずに交流すると良いよ!

Kaggleの使い方

さて、そんなKaggleですが、実際にどのように使っていけばよいのか簡単に解説していきます。

Kaggleに登録した後はまずは、タイタニックのデータセットを触ってみるとよいでしょう!

有名なタイタニックの生死予測データはKaggle入門に最適です!

まずは、Overviewを見てみましょう!

そこにデータの概況などやどのように評価されるか?どのように提出するのか?などが載っています。

kaggle overview

続いてDataという部分。こちらに詳しくデータセットについての記載があります。

kaggle-data

ここからデータセットをダウンロードすることが可能です。

そして一番Kaggleで大事なのがNotebookという部分。

kaggle notebook

こちらに他の人がどのように考えてどのようにコーディングしたかが細かく載っています。

自分の作ったモデルを共有してくれるなんてめちゃくちゃ親切!

これが初心者からするとめちゃくちゃ嬉しいんですよねー!

このNotebookを沿って実装するだけでそれなりのスコアを叩きだすことが可能です。

ロボたん
ロボたん
え?コンペなのに自分のコードを公開しちゃうの??
ウマたん
ウマたん
もちろん上位入賞のモデルは公開されていないよ!ただ公開されているコードだけでもある程度高いスコアをたたき出せるんだよー!

全て英語で記載されているので少し抵抗があるかもしれませんが、基本となるコードは全世界共通なので、なんとか頑張って読み解きましょう!

kaggle disucussion

そしてDisucussionという場所ではユーザー同士のコミュニケーションが行われています。

何か質問したいことがあれば臆さずここに投げるとよいでしょう!

Kaggleの世界にどっぷり浸かりましょう!!

Kaggleにサブミットする前準備

基本的にKaggleの中で勉強していけば良いんですが、軌道に乗る前の前提知識を付けるために何をすればよいか見ていきましょう!

Python・Rが扱えるようになる

まずは、PythonもしくはRが使えるようにならないといけません。

データ解析だけならどちらでも基本問題ないのですが、世界的にもポピュラーでリファレンスが多いことも考えるとPythonの方がオススメです!

なお、僕はどっちも使いますが大学の研究ではRをメインで使っていたので実はR屋です。

RやPythonを勉強するために必要な書籍を以下のまとめています!

厳選10冊!データ解析(R・Python)の勉強におすすめな本こんにちは!デジタルマーケターのウマたん(@statistics1012)です 統計学を勉強する学生やデータ解析を行う方々が良く使う言...

また、Python言語を勉強するのであれば圧倒的にPyQがオススメです!

PyQの体験談を記事にしているのでよければのぞいてみてください!

【体験談】PyQの評判は?3か月本気でPythonを勉強してみたので徹底レビュー!PyQはPythonを学ぶ上で非常にオススメで評判の高いサービスです。ただ、他のサービスとの違いが分かりにくいのも事実。そこで当ブログ【統計ラボ】では、実際にPyQを3か月体験した僕がPyQのメリット・デメリット・評判について徹底的にレビューしていきます!...

機械学習手法の理解

PythonやRが使えるようになっても機械学習手法の知識がないといけません。

機械学習の手法理解については以下の記事で詳しくまとめています!

【入門者向け】機械学習とは?機械学習の種類とRでの実装!こんにちは!デジタルマーケターのウマたん(@statistics1012)です!統計学の修士号を持っており、大学時代はデータサイエンスを...

機械学習の中でもディープラーニングまで踏み込んで勉強したい場合はプログラミングスクールを利用してみるのも手です!

AIや人工知能などを学べるプログラミングスクールを以下にまとめています!

AI・データサイエンスが学べるオンラインスクールサービス5選!こんにちは! 消費財メーカーでデジタルマーケター・データサイエンスティストをやっているウマたん(@statistics1012)で...

ただここまで来てPython・Rそして機械学習手法の理解が進んでも、実際のデータでは様々な困難があります。

地味なデータクレンジングや特徴量抽出など!

そんなデータエンジニアリングの実践力を高める上でKaggleは最適なのです!

Kaggle まとめ

Kaggleについて簡単に見てきました!

ある程度Python・Rが書けるようになってきて、機械学習の基礎も理解できるようになったら、Kaggleに挑戦してみましょう!

初心者でも全く問題ない!Kaggleに入門してデータサイエンティストの道を歩むんです!

ロボたん
ロボたん
データサイエンスの能力が順位付けされて賞金が出るなんてめちゃくちゃやる気でるなー!!!
ウマたん
ウマたん
Kaggle上位入賞目指して頑張ろう!!!

Kaggleは実践的なエンジニアリングが体験できるのでめちゃくちゃオススメです!

腕試しにもなるし!!

偉そうに言っている僕ですが、メダルなんて取ったことないし上位入賞なんて夢のまた夢!

一緒に頑張りましょう!