こんにちは!スタビジ編集部です!
近年、AIによる音声合成(Text-to-Speech)が大きく進化し、自分の声で喋るAIアシスタントや自動ナレーション生成が手軽にできる時代になりました。
その中でも特に注目なのが、”Cartesia“という新興の音声AIプラットフォーム。

高品質な音声合成とAPI連携が強力で、Pythonからも簡単に扱えるのが特徴です。
この記事では、音声AIの概要から、Cartesiaを使った具体的な声クローン生成・Python連携手順までを丁寧に解説していきます。
・音声AIとは
・Cartesiaを使って、自分の声のクローンを作る
・Pythonを使って、自分の声で回答するチャットボット実装
音声AIについてガッツリ学びたい方は以下のUdemy講座で解説していますのでチェックしてみてください!
【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう!
| 【時間】 | 2.5時間 |
|---|---|
| 【レベル】 | 初級 |
音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース!
今なら購入時に「G6X5E8YA」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください!
目次
音声AIとは
「音声AI」とは、人間の声や音を理解・生成する人工知能技術のことです。
主に次の3つの技術が組み合わさって構成されています。
| 技術分野 | 名称 | 概要 |
|---|---|---|
| 音声認識 | ASR(Automatic Speech Recognition) | 話した言葉をテキストに変換する技術 例:Google音声入力、Siriの聞き取りなど |
| 音声合成 | TTS(Text to Speech) | テキストを自然な音声に変換する技術 例:ナビ音声やナレーション生成など |
| 音声クローン | Voice Cloning / Voice Conversion | 特定の人の声をAIが学習し、その声質で自由に喋らせる技術 例: Cartesia, ElevenLabsなど |
音声AIは以下のような場面で利用されています。
- 自分の声でニュースやブログ記事を自動朗読
- 動画ナレーションや教材の自動生成
- AIキャラクターが自然に会話するアプリ開発
- 視覚障がい者向けの音声案内サービス
最近では、単なる読み上げではなく、感情表現や抑揚まで再現できる音声AIが登場しており、人間の声と区別がつかないほど自然な発声が可能になっています。
代表的な音声AIサービス
現在は多くの音声AIサービスが登場しており、用途や目的に応じて使い分けが可能です。
以下の表では、代表的なサービスの特徴や得意分野をまとめています。
| サービス名 | 主な特徴 | 得意分野・用途 | 対応言語 |
|---|---|---|---|
| Google Cloud Text-to-Speech | 安定性・多言語対応が強み。 高品質な音声モデルを多数搭載し、自然な発音を実現。 | 企業向けナレーション生成、翻訳音声、チャットボットなど | 100+ 言語対応 |
| OpenAI TTS | ChatGPTやAPIと統合されており、テキスト→音声を即座に変換可能。 リアルタイム会話に最適。 | AIアシスタント、会話アプリ、教育・対話用途 | 英語中心(日本語対応あり) |
| ElevenLabs | 高品質な音声クローンに定評。 感情表現・イントネーションが非常に自然。 | ナレーション、YouTube動画、ゲームボイス、音声ブック制作など | 英語・日本語など |
| Cartesia | 高音質・低レイテンシーのTTS API。 数分の音声から自分の声のクローンを生成可能でPython連携も容易。 | 自分の声で喋るAI、Webアプリ・チャットボット開発、教育・接客システム | 英語中心(日本語は実験対応) |
このように、音声AIといっても「話すAI」「読むAI」「聞くAI」など用途によって特徴が異なります。
本記事で扱う”Cartesia“は「自分の声をクローン化して自然な発話を行う」タイプの音声AIになります。
Cartesiaで自分の音声クローンを作成してみよう!
実際にCartesiaを使って自分の音声クローンを作ってみましょう。
作成する手順は以下になります。
- Cartesiaに登録・サインイン
- 音声クローン作成
- 音声クローンを確認・テスト再生
難しそうに聞こえるけど、実際は10分ほどでできちゃうんだ〜!
Cartesiaに登録・サインイン
Cartesiaの公式サイトにアクセスし、右上の「Start for Free」からアカウントを新規登録します。(すでにアカウントがアカウントがある方は「Sigi In」からサインインしてください。)

アカウントはメールアドレスで新規作成する他、Githubアカウント・Googleアカウントでサインインすることも可能です。
サインインすると「Text to Speech」の画面に遷移します。

音声クローン作成
音声クローンの作成は左側のメニューにある「Instant Clone」から行います。

音声サンプルは録音したものをアップロードすることも出来ますし、その場で録音することも出来ます。
「Record」というボタンを押すと録音が始まるので、実際に話してみて下さい。(3~10秒くらい話すだけでよいそうです。)
音声サンプルが出来たら、右側の「Detail」で名前とLanguageを入力します。

必要情報の入力が終わったら、右上の「Clone」ボタンを押すと、サンプルを元に音声クローンが作成されます。
音声クローンを確認・テスト再生
音声クローンが作成されると、「Voices」の「My Voices」に登録されます。

「Speak」ボタンを押して自分の音声クローンを聞いてみて下さい。
声質だけでなく声の高さや抑揚までかなり似ていると思います。
また、作成した音声クローンで文章を読ませてみましょう。
左側メニューの「Text to Speech」に移動します。
文章を入力して、「Voice」には先ほど作成した音声クローンを選択したら、「Speak」ボタンを押して再生しましょう。

本当に自分がしゃべっているかのように自然な感じで、文章を読み上げてくれます。
Pythonと音声クローンを組み合わせてみよう!
CartesiaはPythonと簡単に連携が出来て、音声クローンをアプリに組み込めることが特長です。
実際にPythonを使って自分の音声クローンで返答するチャットボットを作ってみましょう。
今回はPythonの実行環境に「Google Colaboratory」を使います。
Google Colaboratoryについては、下記の記事で詳しく解説しているのでチェックしてみて下さい。
PythonでAPIを使って音声クローンを呼び出す
まずは基本的なPythonコードで音声クローンを呼び出す処理を見ていきます。
音声クローンを呼び出すためには「API Key」と「ボイスID」の取得が必要です。
API Key取得
「API Key」はCartesiaの画面から左側メニューの「API Keys」>「+New」ボタンから取得できます。

ボイスID取得
ボイスIDはCartesiaの画面から左側メニューの「Voices」>「My Voices」に移動して、対象のVoiceのタブから「Copy ID」で取得できます。

PythonでAPIを使って呼び出す
取得した情報は、Google Colaboratoryの「シークレット」に格納します。

特にAPI Keyは漏れると勝手に利用されてしまうので、プログラム内に直接書かないことがオススメです。
pip install cartesiaまず必要なライブラリをインストールします。
- cartesia:HTTPリクエストを手で書かずに、CartesiaのAPI(音声合成・クローン作成など)を簡単に呼び出せるようにするためのライブラリ
実際にAPIを呼び出すプログラムを実行します。
from cartesia import Cartesia
from IPython.display import Audio, display
from google.colab import userdata
API_KEY = userdata.get('Cartesia_API')
VOICE_ID = userdata.get('Voice_ID')
client = Cartesia(api_key=API_KEY)
text_ja = (
"こんにちは、これはCartesiaの音声クローンのテストです。"
"スタビジの記事のデモ用に、日本語で読み上げています。"
)
audio_iter = client.tts.bytes(
model_id="sonic-3",
transcript=text_ja,
voice={"mode": "id", "id": VOICE_ID},
output_format={
"container": "wav", # 公式例に合わせてwavを推奨
"sample_rate": 44100,
"encoding": "pcm_f32le",
},
)
out_path = "clone_demo.wav"
with open(out_path, "wb") as f:
for chunk in audio_iter:
f.write(chunk)
print(f"✅ 生成完了: {out_path}")
display(Audio(out_path))
Cartesiaのライブラリでtext-to-speechを呼び出します。
実行すると音声ファイルが生成されます。

再生するとCartesiaのサイトで実行したように、音声クローンで文章を読み上げてくれます。
音声クローンで回答するチャットボットを作ってみよう
最後にChatGPTと組み合わせて、ユーザーの質問を音声クローンで回答するチャットボットを作ってみましょう。
Pythonを使ったチャットボットの作り方は以下の記事で詳しく解説しているのでチェックしてみて下さい。
from io import BytesIO
from cartesia import Cartesia
from openai import OpenAI
from IPython.display import Audio, display
from google.colab import userdata
# --- シークレット(Colabの「シークレットを管理」で設定) ---
CARTESIA_API_KEY = userdata.get('Cartesia_API')
CARTESIA_VOICE_ID = userdata.get('Voice_ID')
OPENAI_API_KEY = userdata.get('OPENAI_API_KEY')
# --- クライアント ---
cartesia = Cartesia(api_key=CARTESIA_API_KEY)
oai = OpenAI(api_key=OPENAI_API_KEY)
# CartesiaでTTSを実行
def tts_bytes(text: str, voice_id: str) -> bytes:
"""CartesiaでTTSして音声バイト列を返す(ファイル保存なし)"""
stream = cartesia.tts.bytes(
model_id="sonic-3",
transcript=text,
voice={"mode": "id", "id": voice_id},
output_format={
"container": "wav",
"sample_rate": 44100,
"encoding": "pcm_f32le",
},
)
buf = BytesIO()
for chunk in stream:
buf.write(chunk)
return buf.getvalue()
# ChatGPTで回答作成⇒Cartesiaで発声
user = input("あなた> ").strip()
if not user:
print("👋 入力がありません。終了します。")
else:
print("🧠 GPT-5 が考え中...")
completion = oai.chat.completions.create(
model="gpt-5",
messages=[
{"role": "system", "content": "あなたは親しみやすく丁寧な日本語で話すアシスタントです。"},
{"role": "user", "content": user},
],
)
reply = completion.choices[0].message.content.strip()
print("🎙 Cartesia で音声生成中...")
audio_data = tts_bytes(reply, CARTESIA_VOICE_ID)
# Colab上で再生(クリックで再生)
display(Audio(data=audio_data, rate=44100))今回は「ユーザーからの入力を受け取り」⇒「ChatGPTで回答文作成」⇒「Cartesiaで発声」というシンプルな構成です。
このプログラムを実行すると、質問の回答を読み上げてくれます。

音声AI まとめ
音声AIの概要とPythonでの利用方法について見ていきました。
今回はGoogle Colaboratoryの仕様上、ブラウザの自動操作(音声プレイヤーを自動で再生)が難しいので、手動で再生する必要がありました。
これを自動で回答したい場合は、Streamlitを使うことで簡単に応答アプリを作ることも出来ます。
詳しくはUdemyの以下の講座をチェックしてみて下さい。
【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう!
| 【時間】 | 2.5時間 |
|---|---|
| 【レベル】 | 初級 |
音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース!
今なら購入時に「G6X5E8YA」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください!
さらに、本記事を通してPythonでのアプリ開発や生成AIに興味がある方はスタアカをもっと勉強したいと思った方は、当メディアが運営する教育サービス「スタアカ(スタビジアカデミー)」の講座をチェックしてみてください。
AIデータサイエンス特化スクール「スタアカ」

| 【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
|---|---|
| 【オススメ度】 | |
| 【サポート体制】 | |
| 【受講形式】 | オンライン形式 |
| 【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムにしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

























