この記事では、MT法の改良手法であるRT法について見ていきたいと思います。
RT法に関してはなかなかリファレンスがないので、こちらの記事が参考になると嬉しいです。
RT法とは
RT(Recognition Taguchi)法とは、タグチ流の多変量解析手法(タグチメソッド)の一つであり、認識のための方法です。
一つの正常な母集団(群)を仮定して、その群からのマハラノビス距離を測ることで正常か異常かを判別する手法です。
実はここまで見るとMT法とよく似ていると思います。
では、MT法との違いはどこなのか?
MT法とRT法の違い
RT法はMT法と比較して2つの長所があります。
①「多重共線性の心配がない」
MT法では項目の数(MTシステムでは変数を項目と呼びます。)がサンプルサイズより多くなると多重共線性によって解析出来ませんでした。
一方で、RT法ではその心配がありません。
②「計算コストが小さい」
MT法と比較して計算コストが非常に小さいです。
なぜ、このような長所が生まれるかを解析方法から確かめていきます。
RT法のアルゴリズム
RT法による解析の手順は以下の通りです。
- 正常だと分かっているデータを単位空間とします。単位空間のデータで項目ごとの平均と標準偏差を求めます。
\begin{eqnarray*}
m_j&=&\frac{1}{n}\sum_{i=1}^n{X_{ij}}\\
s_j&=&\sqrt{\frac{1}{n}\sum_{i=1}^n{(X_{ij}-m_j)}^2}\\
\end{eqnarray*} - 各サンプルにおいて各項目を並べたベクトルと各項目の平均を並べたベクトルをそれぞれ次のように表します。
\begin{eqnarray*}
{\bf x}_i&=&{(X_{i1},X_{i2},\cdots,X_{ip})}^T\\
{\bf m}&=&{(m_{1},m_{2},\cdots,m_{p})}^T\\
\end{eqnarray*} - 各サンプルで統計量\({Y}_{i1}\)と\({Y}_{i2}\)を求めます。
\begin{eqnarray*}
{Y}_{i1}&=&\frac{{\bf m}^T{{\bf x}_i}}{{\bf m}^T{\bf m}}\\
{Y}_{i2}&=&\sqrt{\frac{S_{ei}}{p-1}}\\
{S}_{ei}&=&{{\bf x}_i}^T{{\bf x}_i}-\frac{({\bf m}^T{{\bf x}_i})^2}{{\bf m}^T{\bf m}}\\
\end{eqnarray*} - \({Y}_{i1}\)と\({Y}_{i2}\)を用いて分散共分散行列\(V\)を求めます。
\begin{eqnarray*}
\bar{Y}_{1}&=&\frac{1}{n}\sum_{i=1}^n{Y_{i1}}\\
\bar{Y}_{2}&=&\frac{1}{n}\sum_{i=1}^n{Y_{i2}}\\
V_{11}&=&\frac{1}{n-1}\sum_{i=1}^n{(Y_{i1}-\bar{Y}_{1})^2}\\
V_{22}&=&\frac{1}{n-1}\sum_{i=1}^n{(Y_{i2}-\bar{Y}_{2})^2}\\
V_{12}&=&V_{21}=\frac{1}{n-1}\sum_{i=1}^n{(Y_{i1}-\bar{Y}_{1})(Y_{i2}-\bar{Y}_{2})}\\
V &=& \left(
\begin{array}{ccc}
V_{11} & V_{12} \\
V_{21} & V_{22} \\
\end{array}
\right)\\
\end{eqnarray*} - 分散共分散行列\(V\)の余因子行列\(A\)を求めます。
\begin{eqnarray*}
A = \left(
\begin{array}{ccc}
V_{22} & -V_{12} \\
-V_{21} & V_{11} \\
\end{array}
\right)\\
\end{eqnarray*} - 各サンプルのマハラノビス距離の2乗を求めます。
\begin{eqnarray*}
D_{i}^2&=&\frac{1}{2}(Y_{i1}-\bar{Y}_{1},Y_{i2}-\bar{Y}_{2})A
\left(
\begin{array}{ccc}
Y_{i1}-\bar{Y}_{1} \\
Y_{i2}-\bar{Y}_{2} \\
\end{array}
\right)\\
\end{eqnarray*}
さて、この解析手順を見ると元々はp次元あったデータを2つの統計量に要約してからマハラノビス距離を算出しています。
これが長所の理由です。
RT法は名前の通り認識のための方法であり、特に2値の高次元データへの適用を想定されて提案されました。
もし、画像データなどの判別を行いたいときにはRTを用いると良いかもしれません。
RT法を勉強する上でおすすめ書籍
あまりRT法に関する文献はないのですが、以下の書籍がオススメです。
入門MTシステム
RT法の計算過程を細かく記述している書籍はこれ以外にあまり見かけたことはありません。
入門タグチメソッド
先程の「タグチメソッド入門」じゃ物足りないよという人にはこちらの本をおすすめします。
タグチメソッドの背後にあるアルゴリズムや式構造を理解することができると思います。
RT法 まとめ
本記事では、RT法の特徴やMT法との違い、計算方法についてみてきました!
以下コンテンツもぜひチェックを!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ