手書き文字のMnistデータセットをPythonで分類して使い方を理解していこう！

ウマたん

当サイト【スタビジ】の本記事では、Mnistという手書き文字のデータセットをPythonで分類してどのように扱っていけばよいか見ていきます。Mnistはディープラーニングとはじめとした手法の分類精度を比較するのによく使われるんです。

こんにちは！

データサイエンティストのウマたん（@statistics1012）です。

データサイエンスの世界では最終的には実データを使っていくことになりますが、手法を簡易的に実装してみたり手法の精度を比較する上で既存のデータセットが存在します。

そんな既存のデータセットの中でもディープラーニングの画像分類精度を測る上で非常によく使われるデータセットがMnist。

ロボたん

既存のデータセットを使って意味あるのー？

ウマたん

実データはしっかりデータ整形されていないことが多いから、実装してみるだけだったら既存のデータセットを使った方がよいよ

データセットは色んなタイプがありますが、Mnistの扱い方を知っておくことは非常に重要です。

ということで、この記事ではMnistというデータセットについて見ていきたいと思います。

Mnistデータとは？
PythonでMnistデータを使って分類精度を比較
Mnistデータまとめ

Mnistデータとは？

（イラストはイメージです）

まずは、Mnistデータとは何か見ていきましょう！

MnistはMixed National Institute of Standards and Technology databaseの略で、手書き数字画像60,000枚とテスト画像10,000枚を集めた、画像データセット。

0～9の手書き数字が教師ラベルとして各画像に与えられています。

つまりデータセットの構造は以下のようになっています。

・学習用画像データ
・学習用教師ラベルデータ
・予測用画像データ
・予測用教師ラベルデータ

ロボたん

1つの画像はどのようなデータとして入っているの？

ウマたん

1つ1つの画像は28×28のピクセル単位で格納されているんだ！

1つ1つの画像は、文字画像をタテヨコ28×28のピクセルに分け、1つのピクセルあたり0～255の数値で白黒のスケールを表します。

非常に扱いやすくて、データセットとしての完成度が高いので多くの論文やカリキュラムで取り上げられるデータセットです。

画像分類問題に取り組むのであればまずはMnistを使ってディープラーニングを実装してみるのが良いと思います。

画像認識に関しては以下の記事で詳しく取り上げているのであわせてチェックしてみてください。

【サンプルコード付き】画像認識をPython×機械学習で実装していこう！本記事では、画像認識についてPythonでプログラムを実装しながら簡単に解説していきます。画像認識の領域はディープラーニングの発展とともに盛り上がり、今でも様々な研究が盛んです。そんな画像認識の領域についてサンプルコードを参考にしながらPythonで実装していきましょう！...

PythonでMnistデータを使って分類精度を比較

そんなMnistデータを使ってPythonで分類を行っていきましょう！

比較する手法は以下の4つ！

・CNN（畳み込みニューラルネットワーク）
・Xgboost
・LightGBM
・Catboost

CNN（畳み込みニューラルネットワーク）

ディープラーニングに畳み込み層を組みあわせた画像分類には定番の手法です。

まずは、必要なライブラリをインストールしていきます！

import numpy as np
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow import keras
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.models import Sequential
from tensorflow.keras.utils import to_categorical

tensorflowなどのライブラリはあらかじめpip installしておいてくださいね！

続いてMnistのデータを学習データとテストデータに分けます。そしてさらに学習データからパラメータチューニングのための検証データを取り出します。

# Kerasに付属の手書き数字画像データをダウンロード
np.random.seed(0)
(X_train_base, labels_train_base), (X_test, labels_test) = mnist.load_data()

# Training set を学習データ（X_train, labels_train）と検証データ（X_validation, labels_validation）に8:2で分割する
X_train,X_validation,labels_train,labels_validation = train_test_split(X_train_base,labels_train_base,test_size = 0.2)

この時画像データは、描画がしやすいように28×28の行列になっているのですが、学習するために1×784に直しましょう！さらに0~255のスケールを正規化しましょう！

# 各画像は行列なので1次元に変換→X_train,X_validation,X_testを上書き
X_train = X_train.reshape(-1,784)
X_validation = X_validation.reshape(-1,784)
X_test = X_test.reshape(-1,784)

#正規化
X_train = X_train.astype('float32')
X_validation = X_validation.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_validation /= 255
X_test /= 255

続いてラベルをダミー変数化します。

# labels_train, labels_validation, labels_test をダミー変数化して y_train, y_validation, y_test に格納する
y_train = to_categorical(labels_train)
y_validation = to_categorical(labels_validation)
y_test = to_categorical(labels_test)

ここでデータの成型が終了したので、ディープラーニングのネットワーク構築に入ります。

隠れ層では、RELU（ランプ）関数を用いて出力層ではソフトマックス関数を用いています。

Model.addを使うことで隠れ層をいくつも積み重ねることが可能です。

# パラメータの設定
n_features = 784
n_hidden   = 100
bias_init = 0.1

# 学習率
rate       = 0.01

# Sequentialクラスを使ってモデルを準備する
model = Sequential()

# 隠れ層を追加
model.add(Dense(n_hidden,activation='relu',input_shape=(n_features,)))
model.add(Dense(n_hidden,activation='relu'))
model.add(Dense(n_hidden,activation='relu'))

# 出力層を追加
model.add(Dense(10,activation='softmax'))

ネットワークの構築が終了した後は、最適な重みを見つけていきます。AdamOptimizerは最近よく使われている最適化手法です。

Early stoppingとはもう精度が改善しないようなら学習を止めてしまう条件です。これによってムダな学習を省くことが可能です。最後のvalidation_dataで過学習が起こらないように検証を行っています。

# TensorFlowのモデルを構築
model.compile(optimizer=tf.train.AdamOptimizer(rate),
              loss='categorical_crossentropy', metrics=['mae', 'accuracy'])

# Early stoppingを適用してフィッティング
log = model.fit(X_train, y_train, epochs=3000, batch_size=100, verbose=True,
                callbacks=[keras.callbacks.EarlyStopping(monitor='val_loss', 
                                                     min_delta=0, patience=10, 
                                                         verbose=1)],
                validation_data=(X_validation, y_validation))

最後にテストデータで予測を実行して実測値と予測値の正解率を求めます！

# Test dataで予測を実行。
pred_test = model.predict_classes(X_test)

validation = (pred_test == labels_test)
size       = validation.size
size
correct    = np.count_nonzero(validation)
print(f"{correct}/{size} correct ({correct*100/size:.3f}%)")

最終的な結果は・・・・96.96%！！

そこそこな精度をたたき出すことができました。パラメータをいじることで精度を99％まで伸ばしてみてください！

最後にまとめてコードを載せておきます。

CNNに関しては以下の記事で詳しくまとめていますのでチェックしてみてください！