機械学習

OpenAIが発表した音声toテキストのWhisperについて分かりやすく解説!

Whisper解説
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、OpenAIが開発した音声toテキストのWhisperというモデルについて分かりやすく解説していきます。音声とテキストに変換する作業を自動化することで日々の業務が一気にラクになるかもしません!ぜひ理解して使えるようになっておきましょう!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

AIの進化が凄まじいですが、その中でも音声をテキストに直してくれる「speech to text」の領域のWhisperというモデルについて解説していきたいと思います!

ロボたん
ロボたん
AIの進化早すぎる・・・

WhisperはAI時代の最先端を走る企業OpenAIによって発表されました。

Whisperの仕組みや使い方を知ることでこれからのAI時代を生き抜く上での指針になると嬉しいです。

それでは見ていきましょう!

以下の動画でも解説していますのであわせてチェックしてみてください!

Whisperって何ができるの?

Mobile Marketing

まずは、簡単にWhisperを用いて何ができるのか解説していきたいと思います。

Whisperでは音声をテキストに変換することができます。

ロボたん
ロボたん
音声をテキストに変換できるとどんなことに役立つのかな??
ウマたん
ウマたん
会議の議事録作成やインタビューの書き起こしなど、今まで人が手作業でやっていた領域をAIが自動でやってくれるようになるんだ!

今までも音声をテキストに変換する技術はありましたが、なかなか精度が高くなく実用レベルまで達していないものがほとんどでした。

その中でWhisperは非常に高精度で音声をテキストに変換できる技術として大きな注目を浴びることになったのです!

実際にOpenAIのドキュメントには、インプットした音声に対してテキストをアウトプットしてくれている様子が見て取れます。

Transcription

Whisperのベースとなっている技術

さて、Whisperでどんなことができるのか分かったところで、Whisperが内部的にどんな仕組みになっているのか簡単に見ていきましょう!

Whisperの論文は以下になりますので詳しく知りたい方は論文を見てみてください。

論文に記載されているWhisperのアーキテクチャは以下です。

Whisper

見ての通り、このアーキテクチャは以下のTransformerとほぼ同じでattention層を使ったエンコーダーデコーダーの組み合わせになっています。

Transformer

Trasnformerは2017年に登場し、DALL・EChatGPTをはじめとする他のOpenAIのモデルのベースにもなっている技術です。

Transformerに関しては以下の記事を参考にしてみてください!

Transformer
TransformerをAI進化の流れと共にわかりやすく解説!Attention層に至るまで当サイト【スタビジ】の本記事では、昨今のAIブームのベースとなっているTransformer(トランスフォーマー)について簡単に解説していきたいと思います!Transformerはディープラーニングの進化をブレークスルーさせた技術なんです...

入力音声は30秒単位のまとまりに区切られて、ログメルスペクトログラムという音声認識における特徴量に使われる指標に変換してエンコーダーにインプットしています。

ログメルスペクトログラムとは、人間の知覚する音の尺度に直したメル尺度周波数にログ変換かけたもので以下のようなものです。

ログメルスペクトログラム

(出典:”FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition“)

この際にインプットしているデータは、なんとWeb上の合計68万時間もの音声データ!

ロボたん
ロボたん
ろ、68万時間!?想像もつかないや、、、

昨今のAIの進化はアルゴリズムの進化もさることながら、とにかく大量のデータを食わして学習することで精度を上げている事例が多いです。

そしてデコーダーでは以下の画像の通り、テキスト変換のタスクだけでなく言語分類や音声検知など様々なタスクに対応できるようにマルチタスク学習をしています。

Whisper

また、Whisperにはいくつかのモデルがありlargeになればなるほど精度は上がります。

whisper(出典:Model Card: Whisper

先ほど68万時間の音声データで学習しているとお伝えしましたが、そのうち英語が65%を占めています。

しかしそれでもしっかり英語以外の各言語の精度も高く日本語も比較的高い精度になっています。

以下が各言語の言葉の誤り率を並べたものです。

whisper(出典:Githubリポジトリ:Whisper

日本語もなかなかの精度になっていることがわかると思います。

Whisperについて言及しているOpenAIの公式ブログは以下ですのでこちらもあわせてチェックしてみてください。

Whisper まとめ

今回はWhisperについて簡単にまとめてきました!

Whisperに関するドキュメントを以下にまとめておきますので詳しく知りたい方はあわせて参照してみてください。

ここまでは、Whisperがどんな仕組みなのか見てきましたが、ザックリ理解した後は実際に手を動かしながらガシガシ使ってみることが大事です。

ウマたん
ウマたん
頭の良い人たちが研究開発した知識をガンガン社会実装していこう!

WhisperをはじめとしたAIを利用する方法を知りたい方は当メディアが運営するスタアカの以下のコースを是非チェックしてみてください!

スタアカは業界最安級のAIデータサイエンススクールです。

スタアカトップ
【価格】ライトプラン:980円/月
プレミアムプラン:98,000円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
・生成系AIの基礎や使い方を学ぶ

AIデータサイエンスを学んで市場価値の高い人材になりましょう!

データサイエンスやAIの勉強方法は以下の記事でまとめています。

【5分で分かる】データサイエンティストに必要なスキルと独学勉強ロードマップ!当サイト【スタビジ】の本記事では、データサイエンティストに求められるスキルとそれを身に付けるための勉強法について徹底的にまとめていきます!入門者でも、しっかりデータサイエンティストについて理解しある程度独学で駆け出しの状態までいけることを目指します。...
AIのロードマップ
【これだけ!】AI(人工知能)の勉強ロードマップを徹底的に解説!当サイト【スタビジ】の本記事では、AIを勉強するロードマップについて徹底的に解説していきます。まずは、AIの概要について理解して統計学の基本知識・機械学習の基本知識・Pythonでの実装・インフラ周りの知識などを包括的に理解していきましょう!...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら