こんにちは!
消費財メーカーでデータ分析・デジタルマーケティングをやっているウマたん(@statistics1012)です!
CRISP-DMというデータ分析プロセスのフローの中で最後のフェーズであるDeployment「実装・導入」の部分は非常に重要です。
(出典:Wikipedia-‘Cross-industry standard process for data mining’)
ビジネス理解からはじまりEDA(探索的データ分析)をしながらデータを理解し、データを加工し特徴量エンジニアリングをおこなった後、モデル構築を行い、特定の評価指標の基最終的に良い結果を得ることができて、やっとビジネス貢献を生む実装を行うことができます。
ここまで来る工程も非常に大事ですが、最後のDeploymentのフェーズも手を抜いてはいけない非常に重要なフェーズです。
ここでも注意しておかなければいけない点がいくつかあるんです。
実装フェーズにおけるいくつかの注意点について見ていきましょう!
導入の際の業務要件・体制面の注意点
まずは導入の際の業務要件・体制面の注意点
様々なビジネス・ケースがあるので一概に言えることではありませんが、機械学習モデルを構築して上手くいきそうに見えても、蓋を開けてみると実際の業務にはまらず無用の長物になってしまうなんてこともあります。
例えば、1ヶ月前に予測がしたいのに、特徴量として1日前のデータをインプットしてしまっていたらそのモデルは業務に乗りません。
あとは、現場からの反発をこのタイミングでくらう可能性もあります。
雇用が失われるなんてのはよくドラマなどで取り上げられる事例ですが、そんな極端なことではないにしろ運用的に機械学習を取り入れてしまうと問題なのではないか?という反発もあります。
例えば、
顧客に対して購入しそうな商品のターゲティングをしてメールマーケティングを行う場合、機械学習を使えば精度は上がり全体の効果は高くなるかもしれないのですが、新商品やこれから認知を獲得していきたい成長フェーズの商品は全く顧客に当たらなくなってしまう
みたいな状況があるかもしれません。
そうすると新商品の担当者からはもちろん反発があるでしょうし、そもそも短期的に機械学習で最適化を行うことが長期的な最適にはなっていない可能性があるかもしれません。
ここは本当に難しいところですが、短期的な売りを作るメールマーケティングと長期的な視点でのメールマーケティングの役割を分けて短期的なメールマーケティングにのみ機械学習を実装すれば現場は納得してくれるかもしれません。
このように実は、いくら機械学習で精度の高いモデルが作れても現場に実装・導入するには思わぬ障壁があるということは頭に入れておいてください。
導入の際のテクニカルな注意点
さて続いて、導入の際のテクニカルな注意点
体制面での導入が問題なく出来たとしてもテクニカルな部分での注意ももちろん必要です。
・モデルはどのサーバーで回すのか?
・モデルによる予測は日々行うのか?何時に行うのか?
・予測値はどこに格納してどう利用するのか?
データの格納場所や流れについて確認しておかないといけません。
導入後の注意点
そして導入後の注意点。
なんとか上手く機械学習モデルを現場に導入できたとしても、それで終わりではありません。
モデルの保守・運用の体制を整えておかないとモデルはどんどんと形骸化していってしまいます。
例えば、
・日々更新されるデータがどの程度貯まったら新たな学習データを基にモデルを再構築するのか?
・特定のタイミングで特徴量まで含めた抜本的なモデル見直しをする必要はあるのか?
保守・運用をする体制や、誰でも後から見直せるドキュメント作成は必ずしておきましょう。
そうしないと、無駄な形骸化したモデルが残り続けることになります。
誰も使っていないのに無意味な予測スコアをアウトプットし続けるモデルがあり、誰もメンテナンスしていないみたいな事態は避けましょう!
機械学習の実装「Deployment」における注意点 まとめ
ここでは実装フェーズについて確認してきました。
実装のフェーズも非常に重要で、意外と考えることがあるということが理解いただけたと思います。
ぜひCRISP-DMの流れをしっかり理解して価値あるデータ分析・機械学習導入ができるようになりましょう!
以下の記事でCRISP-DMについては詳しく解説しています!
また機械学習の勉強法については以下の記事でまとめています!