こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
AIの進化が凄まじいですが、その中でも音声をテキストに直してくれる「speech to text」の領域のWhisperというモデルについて解説していきたいと思います!
WhisperはAI時代の最先端を走る企業OpenAIによって発表されました。
Whisperの仕組みや使い方を知ることでこれからのAI時代を生き抜く上での指針になると嬉しいです。
それでは見ていきましょう!
以下の動画でも解説していますのであわせてチェックしてみてください!
Whisperって何ができるの?
まずは、簡単にWhisperを用いて何ができるのか解説していきたいと思います。
Whisperでは音声をテキストに変換することができます。
今までも音声をテキストに変換する技術はありましたが、なかなか精度が高くなく実用レベルまで達していないものがほとんどでした。
その中でWhisperは非常に高精度で音声をテキストに変換できる技術として大きな注目を浴びることになったのです!
実際にOpenAIのドキュメントには、インプットした音声に対してテキストをアウトプットしてくれている様子が見て取れます。
Whisperのベースとなっている技術
さて、Whisperでどんなことができるのか分かったところで、Whisperが内部的にどんな仕組みになっているのか簡単に見ていきましょう!
Whisperの論文は以下になりますので詳しく知りたい方は論文を見てみてください。
論文に記載されているWhisperのアーキテクチャは以下です。
見ての通り、このアーキテクチャは以下のTransformerとほぼ同じでattention層を使ったエンコーダーデコーダーの組み合わせになっています。
Trasnformerは2017年に登場し、DALL・EやChatGPTをはじめとする他のOpenAIのモデルのベースにもなっている技術です。
Transformerに関しては以下の記事を参考にしてみてください!
入力音声は30秒単位のまとまりに区切られて、ログメルスペクトログラムという音声認識における特徴量に使われる指標に変換してエンコーダーにインプットしています。
ログメルスペクトログラムとは、人間の知覚する音の尺度に直したメル尺度周波数にログ変換かけたもので以下のようなものです。
(出典:”FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition“)
この際にインプットしているデータは、なんとWeb上の合計68万時間もの音声データ!
昨今のAIの進化はアルゴリズムの進化もさることながら、とにかく大量のデータを食わして学習することで精度を上げている事例が多いです。
そしてデコーダーでは以下の画像の通り、テキスト変換のタスクだけでなく言語分類や音声検知など様々なタスクに対応できるようにマルチタスク学習をしています。
また、Whisperにはいくつかのモデルがありlargeになればなるほど精度は上がります。
(出典:Model Card: Whisper)
先ほど68万時間の音声データで学習しているとお伝えしましたが、そのうち英語が65%を占めています。
しかしそれでもしっかり英語以外の各言語の精度も高く日本語も比較的高い精度になっています。
以下が各言語の言葉の誤り率を並べたものです。
(出典:Githubリポジトリ:Whisper)
日本語もなかなかの精度になっていることがわかると思います。
Whisperについて言及しているOpenAIの公式ブログは以下ですのでこちらもあわせてチェックしてみてください。
OpenAIの公式ブログ:https://openai.com/research/whisper
Whisper まとめ
今回はWhisperについて簡単にまとめてきました!
Whisperに関するドキュメントを以下にまとめておきますので詳しく知りたい方はあわせて参照してみてください。
・論文:“Robust Speech Recognition via Large-Scale Weak Supervision“
・OpenAIの公式ブログ:https://openai.com/research/whisper
・OpenAIのAPI利用ドキュメント:https://platform.openai.com/docs/guides/speech-to-text
・Githubリポジトリ:https://github.com/openai/whisper
ここまでは、Whisperがどんな仕組みなのか見てきましたが、ザックリ理解した後は実際に手を動かしながらガシガシ使ってみることが大事です。
WhisperをはじめとしたAIを利用する方法を知りたい方は当メディアが運営するスタアカの以下のコースを是非チェックしてみてください!
スタアカは業界最安級のAIデータサイエンススクールです。
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
・生成系AIの基礎や使い方を学ぶ
AIデータサイエンスを学んで市場価値の高い人材になりましょう!
データサイエンスやAIの勉強方法は以下の記事でまとめています。