Python

機械学習入門に必要な知識と独学勉強方法をPythonとRの実装と一緒に見ていこう!

ウマたん
ウマたん
当サイト【スタビジ】の本記事では、入門者向けに機械学習についてカンタンにまとめていきます。最終的にはどのように機械学習を学んでいけばよいかも見ていきます。細かい手法の実装もPython/Rを用いておこなっていくので適宜参考にしてみてください。

こんにちは!

消費財メーカーでデータサイエンティストとして働いているウマたん(@statistics1012)です!

統計学の修士号を持っており、大学時代は統計学を主に専攻していました。

AIビッグデータ、機械学習という言葉が巷を賑わせていますが、実際に機械学習とは何かご存知でしょうか?

ロボたん
ロボたん
んー、何なのかイマイチ分かっていない部分も多いなー・・
ウマたん
ウマたん
言葉だけが先歩きしてしまっている感は否めないよねー!

この記事では、機械学習の種類と実装・勉強法について見ていきますよ!

ウマたん
ウマたん
どんな人にとっても機械学習について知っておくことは大事だよ!

機械学習とは

まずは、機械学習について簡単に確認しておきましょう!

以下の動画でも分かりやすく解説していますよー!

機械学習とは、その名の通り「機械に学習させてルールを作り出す」ということ。

機械学習が発展する前は、人間がルールを決めていました。

レコメンドで言えば、「この商品を購入した人にはこの商品を紹介したいから、そのようなルールを決めよう!」というように(ルールベースレコメンドと呼びます)。

そこに存在するのは人間の勘と想像です。

実際にこのようなレコメンドはまだまだ実用的に使われていますが、より精度の高いレコメンドを行うためには機械学習が必要になります。

この商品を購入した人はこの商品を購入する確率が高いから、そのようなルールを作る」というように現在存在するデータを学習して自動的にルールを作っていくわけです。

最近よく使われているレコメンドロジックは協調フィルタリングと言います。

簡単に言うと行動パターンの似ているユーザーが買っているモノを似たユーザーにレコメンドするといった仕組み。

レコメンドロジックについてはこちらの記事に詳しくまとめていますのでよければご覧ください!

レコメンドで使われる4つのアルゴリズムを簡単に紐解く!当サイト【スタビジ】の本記事では、レコメンドに用いられる4つのアルゴリズムについて数式は使わずに簡単に解説していきます。レコメンドはどこに向かうのかみたいな議論もしていきたいと思います。果たして完璧なレコメンドはあり得るのでしょうか?...

このように現在存在するデータから自動的にルールを作ってくれるアルゴリズムが機械学習なのです。

ちなみに統計学を起点とする多変量解析手法群もその定義からすると機械学習の中に含まれますが、機械学習手法と統計学ではスタンスが若干違います。

統計学は現在のデータを解釈することを目的としますが、機械学習は未知のデータを正確に予測できることを目的とします。

僕は、統計学は解釈追求型、機械学習は精度追求型と呼んでいます。ただ境目は曖昧ですのでそれほど気にする必要はないでしょう。明確に切り分けることはできません。

詳しくは以下の記事をご覧ください!

機械学習と統計学の違いについてモノ申す!!当サイト【スタビジ】の本記事では、機械学習と統計学の違いについて考察していきます。定義と境界が曖昧な2つの領域ですが、目的の違いを理解しておくことが大事。機械学習は予測精度を上げることを目的とし統計学はデータ構造の把握をすることを目的とします。...

機械学習の種類

続いて、そんな機械学習にはどんな種類があるのか見ていきましょう!

機械学習には大きく分けて教師あり学習・教師なし学習・強化学習があります。

教師あり学習 教師なし学習
教師あり学習と教師なし学習の違いとは?【データサイエンティストが解説】 こんにちは! 消費財メーカーのデータサイエンティスト、ウマたん(@statistics1012)です! 統計学の修士...

教師あり学習

教師あり学習はデータ群に対して正解が紐づいているデータセットを学習する手法のことを指します。

例えば、タイタニックの乗船者情報(後で実際に解析に使用します)では、様々なお客さん情報に対してそのお客さんが生き残ったか死んでしまったかのデータが入っています。

生死のラベルが付いていて、それを基にどんな客が生き残ったかのルールを作ることができるのです。

教師あり学習が最も一般的で様々な場面で使われています。

決定木

決定木はタイタニック乗船データに対しても例として用いられている一般的な手法です。

樹木構造で変数での分類規則を作っていきます。

決定木

非常に分かりやすくルールも可視化しやすいためビジネスの場面で用いられることが多いです。

そういう意味でいうと、データの解釈のために使われることが多く単純な予測精度を出したいなら他の手法を用いたほうが無難です。

PythonでもRでもライブラリを呼び出すことで簡単に実装が可能。

以下はPythonのコードです。

決定木に関してはPython・Rどちらでの実装も合わせて以下の記事にまとめています!

決定木
決定木とは?PythonとRで実装してみよう!当サイト【スタビジ】の本記事では、機械学習手法の基本である決定木について見ていきたいと思います。アルゴリズムが分かりやすく実務でもよく使われる手法です。RとPythonでの簡単な実装も合わせておこなっていくので是非チェックしてくださいね!...

k近傍法

k近傍法は、未知データの周りに存在する学習データの数から未知データのラベルを判断する機械学習モデルです。

K近傍法

アルゴリズムはシンプルですが、ある程度精度の見込める手法です。

詳しくは以下の記事にまとめています!

後ほど紹介しますが、Rでの機械学習手法比較を行っています。

k近傍法とは?理論とRでの実装方法!当サイト【スタビジ】の本記事では、アルゴリズムがシンプルで分かりやすいk近傍法について理解を深めていきます。最終的にはRでの実装を行うことで理論と実装の両輪を理解していきましょう!...

ランダムフォレスト

ランダムフォレストは、決定木とバギングを組み合わせた手法でそれなりの精度を簡単にたたき出してくれます。

バギング

それほど計算負荷もかからないので、ちょっとしたデータを解析するのにはもってこいです。

決定木と同様のirisデータをPythonを使って分類できちゃいます。

ランダムフォレストに関しては以下の記事に詳しくまとめていますので参考にしてみてください。

ランダムフォレストとは?PythonとRで実装してみよう!当サイト【スタビジ】の本記事では、決定木をアンサンブル学習することにより汎化能力を高めた強力な機械学習手法「ランダムフォレスト」について見ていきましょう!アルゴリズムを確認した後にRでもPythonでも実装をおこなっていきますよー!...

SVM(サポートベクターマシン)

SVMもランダムフォレスト同様の精度が期待できる優秀な手法です。

応用の幅が広く様々な分野で使われています。計算負荷は高めです。

SVMについて詳しくはこちら!

SVM(サポートベクターマシン)とは?特徴とRによる実装!当サイト【スタビジ】の本記事では、機械学習手法の中でもアルゴリズムが分かりやすい上に汎化能力が高い優秀な手法SVM(サポートベクターマシン)についてまとめていきます!理論とRでの実装を合わせて見ていきますよー!...

後ほどRでの実装比較を見ていきます

ニューラルネットワーク

ニューラルネットワークはディープラーニングの基となった手法です。

ニューラルネットワーク単体ではそれほど高い精度は見込めませんが、中間層を増やせば増やすほど学習が進み(ディープラーニングに近づき)精度が高くなります。

その分、計算負荷も上昇します。

ニューラルネットワークに関して詳しくはこちら!

ニューラルネットワークとは?仕組みとRでの実装!当サイト【スタビジ】の本記事では、ディープラーニングの原型となるニューラルネットワークについてまとめていきます!ニューラルネットワークはディープラーニングを学ぶ上での基礎知識としておさえておいてほしい手法。Rでの実装も一緒におこなっていきますよー!...

ディープラーニングに関しては以下の記事を参考にしてみてください。

【入門】ディープラーニングとは?仕組みとPythonでの実装を見ていこう!当サイト【スタビジ】の本記事では、ディープラーニングの仕組みやPythonでの実装方法について解説していきます。ディープラーニングってなんとなくブラックボックスなイメージがあるかもしれませんが、実はシンプルなアルゴリズムなんですよー!...

ナイーブベイズ

ナイーブベイズはベイズ統計学の概念を用いており、様々な分野へ応用されています。

ベイズ統計学を研究している人を巷ではベイジアンと呼ぶのですが、僕自身大学院時代はベイジアンでした。

ナイーブベイズが用いられる場面として最も有名なのはスパムメールの判別ですね。

スパムメールの判別では、文章に含まれる単語に対して迷惑メールである確率を算出しベイズ推定を使って迷惑メールであるか否かを推定します

以下の記事でナイーブベイズに関してまとめています!

ナイーブベイズとは?概要とRでの実装!当サイト【スタビジ】の本記事では、ベイズ推定を用いた機械学習手法であるナイーブベイズについてまとめていきます!ナイーブベイズの仕組みや応用場面を見ていったあと、ナイーブベイズと他の機械学習手法をRで実装して精度を比較していきますよー!...

XGboost

XGboostは、決定木勾配ブースティングを組み合わせた手法で相当高い精度が見込めます。

Xgboostはランダムフォレストと似ているのですが、ランダムフォレストはアンサンブル学習にバギングを用いている一方Xgboostはブースティングを用いているんです。

アンサンブル学習とは?バギングとブースティングとスタッキングの違い当サイト【スタビジ】の本記事では、アンサンブル学習についてまとめていきます!アンサンブル学習とは機械学習を学ぶ上で非常に重要な考えであり、いくつかのモデルを組み合わせて汎化能力を上げるもの。有名なランダムフォレストやXgboostなどもアンサンブル学習によって生み出されているんです!...

勾配ブースティングの手法群は、いまだに現役のデータコンペ常連の手法なんですよー!

XGboostに関しては以下の記事をご覧ください!

XGboostとは?理論とPythonとRでの実践方法!当ブログ【スタビジ】の本記事では、機械学習手法の中でも非常に有用で様々なコンペで良く用いられるXgboostについてまとめていきたいと思います。最後にはRで他の機械学習手法と精度比較を行っているのでぜひ参考にしてみてください。...

LightGBM

Light GBMはXgboostのあと2016年にリリースされたXgboostを改良した手法です。

Xgboostを含む通常の決定木モデルは以下のように階層を合わせて学習していきます。

それをLevel-wiseと呼びます。

level-wise学習法
(引用元:Light GBM公式リファレンス

一方Light GBMは以下のように葉ごとの学習を行います。これをleaf-wise法と呼びます。

leaf-wise学習法
(引用元:Light GBM公式リファレンス

これにより、ムダな学習をしなくても済むためより効率的に学習を進めることができます。

計算負荷がXgboostと全然違うので、時間の限られたコンペではLightGBMが好んで使われます。

LightGBMに関しては以下の記事で詳しくまとめています。

Light GBM
Light GBMの仕組みとPythonでの実装を見ていこう!当ブログ【スタビジ】の本記事では、最強の機械学習手法「Light GBM」についてまとめていきます。Light GBMは決定木と勾配ブースティングを組み合わせた手法で、Xgboostよりも計算負荷が軽い手法として注目を集めています。...

Catboost

さらにLight GBMよりも後に発表されたのが、Catboost。

「Category Boosting」の略であり2017年にYandex社から発表された機械学習ライブラリです。

特徴は以下。

・カテゴリカル変数(質的変数)の扱い方が上手いよ
・決定木のツリー構造を最適にして過学習を防ぐよ
・計算負荷が低いよ

実際、他の勾配ブースティング手法との違いは微妙なところ。

後ほど精度比較していきますよー!

Catboostに関しては以下の記事でまとめています!

Catboost
Catboostとは?XgboostやLightGBMとの違いとPythonでの実装方法を見ていこうー!!当サイト【スタビジ】の本記事では、XgboostやLightGBMに代わる新たな勾配ブースティング手法「Catboost」について徹底的に解説していき最終的にPythonにてMnistの分類モデルを構築していきます。LightGBMやディープラーニングとの精度差はいかに!?...

教師なし学習

教師あり学習では、正解データが存在しましたが、教師なし学習では正解データは存在しません。

現在存在するデータから何か特徴を導き出す時・セグメントを行う時などに使われます。

教師なし学習にはクラスター分析主成分分析などが存在します。先ほど機械学習と統計学の違いをお伝えした通り、統計学は現在のデータの解釈に使われることが多いです。

そのため、教師なし学習のクラスター分析や主成分分析は統計学的アプローチの文脈で使われることが多いです。

階層的クラスター分析

階層クラスター分析では木構造のような図を作ってクラスター分けを行います。

ある類似度を表す指標をもとにサンプルを融合していき、最終的に一つのクラスターを作る手法です。

階層的クラスター分析に関しては以下の記事で詳しくまとめています!

クラスター分析
クラスター分析とは?RとPythonでの実装方法を一緒に見ていこう!当サイト【スタビジ】の本記事では、クラスター分析についてまとめていきます。クラスター分析は教師なし学習の定番手法で、データの構造や傾向を把握するのに非常に役立ちます。クラスター分析を利用してデータを可視化してみましょう!...

k-means法

階層的クラスター分析は分かりやすく、結果が出た後に分類の様子からクラスタ数を決めることが可能です。

ただデータ量が多くなると計算に時間がかかるというデメリットがあります。

そこで登場するのが非階層的クラスター分析のk-means法。

どちらの手法も一長一短ですが、一般的にビジネスの場では膨大なデータを扱うことが多いため非階層的クラスター分析が良く用いられます。

先ほどから頻出のirisデータを階層的クラスター分析で分類してみましょう!

以下がコードです。


3つの花のタイプに分かれているので、そのラベルがk-means法で上手く分類できるかどうか見ていきます。

実際におこなってみた結果がこちら

123
setosa0500
versicolor4802
virginica14036

Verginicaは少し外してますが、それ以外は比較的当たってますね!

以下の記事でk-means法についてまとめています!

k-means法とは?RとPythonで実装してみよう!当サイト【スタビジ】の本記事では、非階層クラスター分析のk-means法について徹底的に解説していきます。メリットとデメリットがあるので使う際は注意しましょう!x-means法という改良手法も合わせて一緒に見ていきますよー!...

主成分分析

主成分分析は、1900年代前半にピアソンやホテリングにより導かれた手法であり長い歴史を持っています。

教師データ(正解データ)がいらない手法であり、手元にあるデータの次元を圧縮し構造化するのに優れています。

Pythonで主成分分析を実装していきましょう!

非常に簡単に実装することが可能です。

使用するデータは、統計科学研究所の「成績データ」。以下のURLからダウンロードできます。

https://statistics.co.jp/reference/statistical_data/statistical_data.htm

kokugoshakaisugakurikaongakubijututaiikugikaeigo
304351636066374420
392149567072566316
29302357697633546
9587771007782789687
707178677282466344
675356616176706640
292644523768334313

9科目の点数が166人分入ってます。

主成分分析自体は、scikit-learn内のライブラリを用います。

from sklearn.decomposition import PCA

実際に第1主成分と第2主成分を軸にデータをプロットしてみるとこんな感じ

寄与率を見てみると以下のようになっており、ほぼ第2主成分までで80%を超えていることが分かります。

array([0.66738119, 0.12202057, 0.05453805, 0.04521959, 0.03336222, 0.02460657, 0.02030967, 0.01902168, 0.01354047])

主成分分析については以下の記事でまとめています!

主成分分析とは?簡単な説明とPythonでの実装!当サイト【スタビジ】の本記事では、実務の基礎分析にて使われることの多い主成分分析について詳しく見ていきます。最後にはカンタンなPythonでの実装も載せていますのでぜひ参考にしてみてください!...

強化学習

強化学習は、昨今最も注目を集めている分野です。

教師あり学習と似ていますが、教師あり学習は全ての変数(特徴量)に対してフィードバックがありますが、強化学習は最終的な結果にのみフィードバックをします。

それを強化学習の世界では報酬と言いますが、報酬をたくさんもらえるように最適化すると最終的に精度の高いモデルが構築されるというイメージです。

まだまだビジネスの世界への適応例は少ない手法です。

強化学習については以下の記事にまとめています!

強化学習とは?ディープラーニングとの関係性当サイト【スタビジ】の本記事では、強化学習についてディープラーニングとの関係という観点から見ていきます。教師なし学習・教師あり学習は分かりやすく汎用性が高いのですが、なかなかビジネスの場面で使いにくい強化学習。しかし、今非常に注目を集めているのです。...

機械学習をRで実装してみよう!

機械学習に対する理解がだいぶ深まったと思いますので、ここで簡易的な解析をしてみましょう!

機械学習手法を使うだけなら非常に簡単に実装できちゃうんですよー!教師あり学習を実装してみましょう!

先ほども登場した有名なタイタニックのデータを用います。Kaggleの公式サイトからデータをダウンロードできます。

まず、データのクレンジングを行い、欠損値は削除、不要と考えられる項目は削除しました。

項目8つ

Survived:生死 pclass:客室のクラス sex:性別 age:年齢 sibsp:兄弟・配偶者の数 parch:親・子供の数 fare:乗船料金 embarked:乗船した港

サンプル数714

この時、生死を目的変数としそれ以外を説明変数とします。

サンプル数714のうちランダムに400個のデータを取り出し学習データとし、残りの314を予測データとします。

学習データで予測モデルを作り、予測データにあてはめ真値と予測値の判別率を精度として比較します。

シミュレーション回数は10回とし上記の手順を10回繰り返し、結果を平均したものを最終アウトプットとします。

XGboostランダムフォレストサポートベクターマシンナイーブベイズニューラルネットワークk近傍法の6手法で比較します!

基本的に引数は全部デフォルトで!果たして結果はどうなるでしょうか!

意外とランダムフォレストとSVMが強い!

シミュレーション10回なのでばらつき大きめですが、おおまかな精度の指標になるでしょう。

今回はパラメータをいじらずデフォルト設定で行ったためグリッドサーチなどでチューニングを行えば、もっと良い精度が出るでしょう。

機械学習をPythonで実装してみよう!

PC

続いて、Pythonで機械学習手法を実装していきましょう!

コンペでも人気の勾配ブースティング手法「Xgboost」「LightGBM」「Catboost

使用するデータセットは画像識別のベンチマークによく使用されるMnistというデータです。

Mnistは以下のような特徴を持っています。

・0~9の手書き数字がまとめられたデータセット
・6万枚の訓練データ用(画像とラベル)
・1万枚のテストデータ用(画像とラベル)
・白「0」~黒「255」の256段階
・幅28×高さ28フィールド

ディープラーニングのパフォーマンスをカンタンに測るのによく利用されますね。

それぞれの手法のコードをざっと並べて見ていきましょう!



結果は以下のようになりました!

■Xgboost

精度:0.9764 処理時間:1410秒

■LightGBM

精度:0.972 処理時間:178秒

■Catboost

精度:0.9567 処理時間:260秒

精度はXgboostが最もよくLightGBMが最も処理が早いという結果になりましたー!

機械学習を勉強する方法

非常に幅広く、様々な手法が混在する機械学習手法について見てきましたがこれらを学習するにはどのように進めていけばよいかロードマップについて見ていきましょう!

Step1:数学の勉強
Step2:機械学習理論の勉強
Step3:機械学習のPython実装

Stepに分けていますが、ある程度Pythonでのコーディングは理論を学びながら並行しておこなっていくことをオススメします!

数学の勉強

機械学習手法の理論に踏み込む上では少々数学が必要です。

なかなか初心者向けの書籍がないので最初はUdemyというオンライン学習プラットフォームで学習を進めることをオススメします!

Udemyは世界最大の教育プラットフォームです。

Udemyの基本情報

・世界最大のオンライン学習プラットフォーム
・日本事業ではベネッセがパートナーになっている
・15万種類ものコース
・約3億人のユーザー登録
※2020年3月時点

Udemy
【体験談】評判の良いUdemyを実際に20コース受けてみてレビュー!当サイト【スタビジ】の本記事では、世界最大のオンライン学習プラットフォームであるUdemyのメリット・デメリット・評判・口コミについてまとめていきます!実際にPython関連のコースを20個受講して分かった体験談をもとにお伝えしていきます。...

数学の勉強で大事なのは以下の3つ。

・微分積分
・線形代数
・確率統計

モデルの誤差を損失関数と言いますが、損失関数をなるーーべく小さくすると良いモデルになります。

その時に微分を使うんですよねー。

微分の学習には以下のUdemy講座をオススメします。

Udemy コース アルゴリズム
\30日間返金無料/

教育サービスを提供するキカガクの代表取締役の方が丁寧に機械学習のアルゴリズムについて教えてくれます。

まあ機械学習の基本・土台となる単回帰分析を数式から学んでいくもの。

ビックリしたんですが、パワポではなく紙に手書きで進んでいくんです!

続いては線形代数

線形代数は大量のデータを扱う機械学習に必要な概念。

3つの中でどれが一番大事かと言われたら線形代数と答えるでしょう。

書籍を読み進める上で非常に大事です。

線形代数を学ぶのにおすすめなのは同じくキカガクのUdemy講座中級編!

Udemy コース ブラックボックス中級
\30日間返金無料/

本コースでは線形代数を学びながら重回帰分析まで展開していきます。

線形代数を学びながら微分も用いて定式化していきますよー!

実際に手計算で重回帰分析を行い、その後Pythonのsklearnを使って分析を行っていきます。

さらに線形代数を深く学びたい人はぜひ以下のUdemy講座をチェックしてみてください。

Udemy コース 線形代数
\30日間返金無料/

線形代数に特化した内容で初歩的な部分から応用まで幅広く網羅しています。

確率統計に関してはUdemy講座だと以下の講座がおすすめです。

Udemy コース データサイエンス
\30日間返金無料/

データサイエンスの分野を幅広くおさえている講座ですが、その中でも確率統計に関して初歩的な部分をしっかりおさえています。

コミカルな動画と共に学べるので非常に分かりやすいです。

ビジネスサイドに立ってどのようにデータを扱えばよいかという議論のもとデータサイエンスについて学べるので分かりやすくスーッと頭に入ってくると思います。

ここまで、おおかた数学の土台は出来上がっていると思いますが、もしさらに深く数学について学びたい場合は以下の書籍をオススメします!

created by Rinker
¥3,190
(2020/08/07 21:13:31時点 Amazon調べ-詳細)

ちょっと難しいですが、深くエッセンスの詰まった書籍。

数学側に主眼を置いていますが、AI/機械学習手法と絡ませながら学ぶとより一層学びが深まる良書です。

機械学習の理論を勉強する

ある程度数学の土台が出来たあとは、機械学習手法の実践に挑戦してみましょう!

最初は難しいかもしれませんが、機械学習の本としては以下の「はじめてのパターン認識」が名著です。

created by Rinker
¥3,300
(2020/08/08 07:15:11時点 Amazon調べ-詳細)

かなり詳しく載っています。

「はじめての」と書いている割には、はじめて感がないのが特徴です笑

また、直接的に機械学習ではありませんが統計的モデリングについて理解しておくと非常に機械学習の理解も深まるので以下の書籍も一緒に読むことをオススメします!

機械学習を勉強するためにオススメの本を以下にまとめていますのでこちらも参考にしてみてください!

厳選12冊!機械学習を勉強する上でおすすめな本!当サイト【スタビジ】の本記事では、機械学習を勉強するのにオススメな書籍を紹介していきます。機械学習は大量のデータから予測を行うことを得意とする手法群。しっかり機械学習手法の理論から学んでいくことが大事!...

機械学習のPython実装を勉強する

ここまで来たら、後は実装フェーズ。

理論と実装を完全に切り分けてしまうと途中で挫折してしまう可能性高いのでぜひ並行して進めましょう!

機械学習の実装はPython・Rどちらでもできますが、個人的にはPythonの方が圧倒的におすすめ!

統計解析を行う上で便利なプログラミング言語を比較!当サイト【スタビジ】の本記事では、統計解析において便利なプログラミング言語「Python/R/Stan/SQL」を比較していきます。それぞれのプログラミング言語にどのような特徴があるのか、どのように勉強していけばよいのか見てきますよー!...

Pythonはできることの幅が広く機械学習の先にも色々できることがあります。

Python-can
Pythonでできること6つをコード例をまじえてまとめておく!当サイト【スタビジ】本記事では、Pythonでできることを6つまとめていきます!!Pythonで何ができるのか分からない状況から深い理解にもっていきますよー!実際にPythonでの実装例や勉強方法も取り上げているのでぜひご自分の環境で手を動かして実装してみてくださいね!...

例えば機械学習アルゴリズムを搭載したWebアプリケーションを作成することも可能なんです。

Pythonを勉強するためには本を読む・スクールに通う・オンラインサービスを使う、などがありますが圧倒的に書籍よりもスクールやオンライン学習をオススメします!

スクールでオススメなのはテックアカデミー

現役エンジニアのパーソナルメンターがつくので分からないところも解消しやすく書籍などで進めるよりは圧倒的に進みが早いです。

価格は3か月で239,000円!

テックアカデミー 価格表

価格が高い分お尻に火が付きますが、テックアカデミーは教材のクオリティが低く、ネットで無料で学べるレベルです。

メンターのレベルは非常に高いので自分のやる気さえあれば教材の範囲を超えた内容をガツガツ学ぶことが可能!

僕自身3か月のコースを1か月で終わらせて、応用をガツガツ学んでました。

また、Udemyでは以下の講座が簡単な機械学習手法をPythonで実装して実際にデータ解析コンペに提出していくのでオススメです!

Udemy コース データサイエンス
\30日間返金無料/

簡単な単回帰分析から機械学習(決定木)を使って回帰と分類問題を解いていくコース!

課題定義や分析において気を付けるべきところについても学べるので実務においても役立つ内容です。

Pythonを最短で勉強する方法は以下の記事でまとめていますのでこちらも合わせてチェックしてみてください!

【独学入門】初心者が3か月でPythonを習得できるようになる勉強法!当ブログ【スタビジ】の本記事では、Pythonを効率よく独学で習得する勉強法を具体的なコード付き実装例と合わせてまとめていきます。Pythonはできることが幅広いので自分のやりたいことを明確にして勉強法を選ぶことが大事です。...

ここまでくれば、おおかた機械学習は問題なし!!

機械学習の種類と勉強法 まとめ

機械学習についてみてきましたー!

機械学習は、非常に簡単に実装できます。

ただその分、機械学習が実装できるだけでは意味がありません。

どのようなデータを機械に与えて、得られた結果をどのように解釈するか。それが最も大事な部分になります。

得られた結果をどのようにビジネスに落とし込むか・ビジネスインパクトを出すか。ここがデジタルマーケター・データサイエンティストの腕の見せ所ですね!

ウマたん
ウマたん
機械学習はあくまで手段だ!目的を見失わないようにしよう!

ここから先は、統計学的な視点を固めるか、Kaggleというコンペで機械学習の腕を磨くか、ディープラーニングを学ぶかなどがあります。

ぜひ好きな方向に進んでくださいねー!

統計学とは?当サイト【スタビジ】の本記事では、統計学について徹底的にまとめていきます。統計学の歴史・統計学で使われる手法・統計学に必要なプログラミング言語などを詳しく紹介していきますよー!この機会に統計学をしっかり理解しておきましょう!...
【初心者向けKaggle入門】Kaggleサブミットの前準備と勉強法!当サイト【スタビジ】の本記事では、Kaggleについて解説していきKaggleに挑戦するまでにどのようなことを勉強しておいたらよいのか丁寧に解説していきます。ある程度データサイエンスの土台が出来た後はKaggleに挑戦し、世界各国の猛者と凌ぎを削りましょう!...
【初心者向け】ディープラーニングの学習ロードマップまとめ当サイト【スタビジ】本記事では、ディープラーニングの学習方法について詳しくまとめていきます!ディープラーニングは難しいと思われがちですが、アルゴリズムは意外とシンプルで実装自体も非常に簡単なんです!Pythonでの実装もおこなっていきますよー!...
Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!