自分の声のクローンを音声AIで生成してPythonから呼び出して使う方法！

ウマたん

当サイト【スタビジ】の本記事では、音声AI「Cartesia」を使って自分の声をクローン化し、Pythonから呼び出して使う方法を徹底解説していきます！自分の声を使って回答するチャットボットを作ってみましょう！

こんにちは！スタビジ編集部です！

近年、AIによる音声合成（Text-to-Speech）が大きく進化し、自分の声で喋るAIアシスタントや自動ナレーション生成が手軽にできる時代になりました。

その中でも特に注目なのが、音声AIプラットフォームの「Cartesia」です。

高品質な音声合成とAPI連携が強力で、Pythonからも簡単に扱えるのが特徴です。

Cartesiaって何？機能を知りたい！

音声AIをプログラムに組み込んでみたい！

この記事では、音声AIの概要から、Cartesiaを使った具体的な声クローン生成・Python連携手順までを丁寧に解説していきます。

ウマたん

音声AIの使い方をマスターしよう！

・音声AIとは
・Cartesiaを使って、自分の声のクローンを作る
・Pythonを使って、自分の声で回答するチャットボット実装

音声AIについてガッツリ学びたい方は以下のUdemy講座で解説していますのでチェックしてみてください！

【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう！

【時間】	2.5時間
【レベル】	初級

音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース！

今なら購入時に「USTHVU4USSS6」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください！

＼30日以内なら返金無料／このコースを見てみる

音声AIとは
- 代表的な音声AIサービス
Cartesiaで自分の音声クローンを作成してみよう！
Pythonと音声クローンを組み合わせてみよう！
- PythonでAPIを使って音声クローンを呼び出す
- 音声クローンで回答するチャットボットを作ってみよう
音声AI まとめ

音声AIとは

「音声AI」とは、人間の声や音を理解・生成する人工知能技術のことです。

主に次の3つの技術が組み合わさって構成されています。

技術分野	名称	概要
音声認識	ASR（Automatic Speech Recognition）	話した言葉をテキストに変換する技術例：Google音声入力、Siriの聞き取りなど
音声合成	TTS（Text to Speech）	テキストを自然な音声に変換する技術例：ナビ音声やナレーション生成など
音声クローン	Voice Cloning / Voice Conversion	特定の人の声をAIが学習し、その声質で自由に喋らせる技術例：Cartesia、ElevenLabsなど

音声AIは以下のような場面で利用されています。

自分の声でニュースやブログ記事を自動朗読
動画ナレーションや教材の自動生成
AIキャラクターが自然に会話するアプリ開発
視覚障がい者向けの音声案内サービス

最近では、単なる読み上げではなく、感情表現や抑揚まで再現できる音声AIが登場しており、人間の声と区別がつかないほど自然な発声が可能になっています。

ウマたん

音声AIを使えば、まるで人間が実際に話しているかのように、自然な声で情報を伝えることができるんだね！

代表的な音声AIサービス

現在は多くの音声AIサービスが登場しており、用途や目的に応じて使い分けが可能です。

以下の表では、代表的なサービスの特徴や得意分野をまとめています。

サービス名	主な特徴	得意分野・用途	対応言語
Google Cloud Text-to-Speech	安定性・多言語対応が強み。高品質な音声モデルを多数搭載し、自然な発音を実現。	企業向けナレーション生成、翻訳音声、チャットボットなど	100+ 言語対応
OpenAI TTS	ChatGPTやAPIと統合されており、テキスト→音声を即座に変換可能。リアルタイム会話に最適。	AIアシスタント、会話アプリ、教育・対話用途	英語中心（日本語対応あり）
ElevenLabs	高品質な音声クローンに定評。感情表現・イントネーションが非常に自然。	ナレーション、YouTube動画、ゲームボイス、音声ブック制作など	英語・日本語など
Cartesia	高音質・低レイテンシーのTTS API。数分の音声から自分の声のクローンを生成可能でPython連携も容易。	自分の声で喋るAI、Webアプリ・チャットボット開発、教育・接客システム	英語中心（日本語は実験対応）

このように、音声AIといっても「話すAI」「読むAI」「聞くAI」など用途によって特徴が異なります。

本記事で扱う「Cartesia」は「自分の声をクローン化して自然な発話を行う」タイプの音声AIです。

Cartesiaで自分の音声クローンを作成してみよう！

実際にCartesiaを使って自分の音声クローンを作ってみましょう。

作成する手順は以下になります。

Cartesiaに登録・サインイン
音声クローン作成
音声クローンを確認・テスト再生

ウマたん

それではいよいよ、自分の声をAIに学習させて「声のクローン」を作っていくよ！

難しそうに聞こえるけど、実際は10分ほどでできちゃうんだ〜！

Cartesiaに登録・サインイン

Cartesiaの公式サイトにアクセスし、右上の「Start for Free」からアカウントを新規登録します。（すでにアカウントがある方は「Sign In」からサインインしてください。）

アカウントはメールアドレスで新規作成する他、GitHubアカウント・Googleアカウントでサインインすることも可能です。

サインインすると「Text to Speech」の画面に遷移します。

音声クローン作成

音声クローンの作成は左側のメニューにある「Instant Clone」から行います。

音声サンプルは録音したものをアップロードすることもできますし、その場で録音することもできます。

「Record」というボタンを押すと録音が始まるので、実際に話してみてください。（3～10秒くらい話すだけでよいそうです。）

音声サンプルができたら、右側の「Detail」で名前とLanguageを入力します。

必要情報の入力が終わったら、右上の「Clone」ボタンを押すと、サンプルを元に音声クローンが作成されます。

音声クローンを確認・テスト再生

音声クローンが作成されると、「Voices」の「My Voices」に登録されます。

「Speak」ボタンを押して自分の音声クローンを聞いてみてください。

声質だけでなく声の高さや抑揚までかなり似ていると思います。

また、作成した音声クローンで文章を読ませてみましょう。

左側メニューの「Text to Speech」に移動します。

文章を入力して、「Voice」には先ほど作成した音声クローンを選択したら、「Speak」ボタンを押して再生しましょう。

本当に自分がしゃべっているかのように自然な感じで、文章を読み上げてくれます。

ウマたん

こんな高精度の音声クローンを簡単に利用できるってすごい！

Pythonと音声クローンを組み合わせてみよう！

CartesiaはPythonと簡単に連携ができて、音声クローンをアプリに組み込めることが特長です。

実際にPythonを使って自分の音声クローンで返答するチャットボットを作ってみましょう。

今回はPythonの実行環境に「Google Colaboratory」を使います。

Google Colaboratoryについては、下記の記事で詳しく解説しているのでチェックしてみてください。

Google Colaboratoryのメリットと使い方！GPU環境でPython回すならこれだ！当サイト【スタビジ】の本記事では、Googleが無償で提供する機械学習のプラットフォーム「Google Colaboratory」をメリット・デメリット・使い方について見ていきます！実際にPythonを実行していきGPUの威力を見ていきます。...

PythonでAPIを使って音声クローンを呼び出す

まずは基本的なPythonコードで音声クローンを呼び出す処理を見ていきます。

音声クローンを呼び出すためには「API Key」と「ボイスID」の取得が必要です。

API Key取得

「API Key」はCartesiaの画面から左側メニューの「API Keys」>「+New」ボタンから取得できます。

ボイスID取得

ボイスIDはCartesiaの画面から左側メニューの「Voices」>「My Voices」に移動して、対象のVoiceのタブから「Copy ID」で取得できます。

PythonでAPIを使って呼び出す

取得した情報は、Google Colaboratoryの「シークレット」に格納します。

特にAPI Keyは漏れると不正利用されてしまう可能性があるため、、プログラム内に直接書かないことをおすすめします。

pip install cartesia

まず必要なライブラリをインストールします。

cartesia：HTTPリクエストを手で書かずに、CartesiaのAPI（音声合成・クローン作成など）を簡単に呼び出せるようにするためのライブラリ

実際にAPIを呼び出すプログラムを実行します。

from cartesia import Cartesia
from IPython.display import Audio, display
from google.colab import userdata

API_KEY  = userdata.get('Cartesia_API')
VOICE_ID = userdata.get('Voice_ID')


client = Cartesia(api_key=API_KEY)

text_ja = (
    "こんにちは、これはCartesiaの音声クローンのテストです。"
    "スタビジの記事のデモ用に、日本語で読み上げています。"
)

audio_iter = client.tts.bytes(
    model_id="sonic-3",
    transcript=text_ja,
    voice={"mode": "id", "id": VOICE_ID},
    output_format={
        "container": "wav",      # 公式例に合わせてwavを推奨
        "sample_rate": 44100,
        "encoding": "pcm_f32le",
    },
)

out_path = "clone_demo.wav"
with open(out_path, "wb") as f:
    for chunk in audio_iter:
        f.write(chunk)

print(f"✅ 生成完了: {out_path}")
display(Audio(out_path))

Cartesiaのライブラリでtext-to-speechを呼び出します。

実行すると音声ファイルが生成されます。

再生するとCartesiaのサイトで実行したように、音声クローンで文章を読み上げてくれます。

音声クローンで回答するチャットボットを作ってみよう

最後にChatGPTと組み合わせて、ユーザーの質問を音声クローンで回答するチャットボットを作ってみましょう。

Pythonを使ったチャットボットの作り方は以下の記事で詳しく解説しているのでチェックしてみてください。

【サンプルコード付き】Pythonを使ったチャットボットの作り方を解説！当サイト【スタビジ】の本記事では、Pythonを使ったチャットボットの作り方をコードによる実装も含めて解説していきます！ChatGPTにより、高度な回答が可能なチャットボットが簡単に作れるようになりました。本記事を読んで自分なりのチャットボットを作っていきましょう！...

from io import BytesIO
from cartesia import Cartesia
from openai import OpenAI
from IPython.display import Audio, display
from google.colab import userdata

# --- シークレット（Colabの「シークレットを管理」で設定） ---
CARTESIA_API_KEY = userdata.get('Cartesia_API')
CARTESIA_VOICE_ID = userdata.get('Voice_ID')
OPENAI_API_KEY    = userdata.get('OPENAI_API_KEY')


# --- クライアント ---
cartesia = Cartesia(api_key=CARTESIA_API_KEY)
oai = OpenAI(api_key=OPENAI_API_KEY)

# CartesiaでTTSを実行
def tts_bytes(text: str, voice_id: str) -> bytes:
    """CartesiaでTTSして音声バイト列を返す（ファイル保存なし）"""
    stream = cartesia.tts.bytes(
        model_id="sonic-3",
        transcript=text,
        voice={"mode": "id", "id": voice_id},
        output_format={
            "container": "wav",
            "sample_rate": 44100,
            "encoding": "pcm_f32le",
        },
    )
    buf = BytesIO()
    for chunk in stream:
        buf.write(chunk)
    return buf.getvalue()

# ChatGPTで回答作成⇒Cartesiaで発声
user = input("あなた> ").strip()
if not user:
    print("👋 入力がありません。終了します。")
else:
    print("🧠 GPT-5 が考え中...")
    completion = oai.chat.completions.create(
        model="gpt-5",
        messages=[
            {"role": "system", "content": "あなたは親しみやすく丁寧な日本語で話すアシスタントです。"},
            {"role": "user", "content": user},
        ],
    )

    reply = completion.choices[0].message.content.strip()

    print("🎙 Cartesia で音声生成中...")
    audio_data = tts_bytes(reply, CARTESIA_VOICE_ID)

    # Colab上で再生（クリックで再生）
    display(Audio(data=audio_data, rate=44100))

今回は「ユーザーからの入力を受け取り」⇒「ChatGPTで回答文作成」⇒「Cartesiaで発声」というシンプルな構成です。

このプログラムを実行すると、質問の回答を読み上げてくれます。

ウマたん

ChatGPTとCartesiaを組み合わせることで、質問を音声で回答してくれるアプリが簡単に作れる！

音声AI まとめ

音声AIの概要とPythonでの利用方法について見ていきました。

ウマたん

音声クローンの精度にびっくり！Pythonと組み合わせていろんな音声アプリを作ってみよう！

今回はGoogle Colaboratoryの仕様上、ブラウザの自動操作（音声プレイヤーを自動で再生）が難しいので、手動で再生する必要がありました。

これを自動で回答したい場合は、Streamlitを使うことで簡単に応答アプリを作ることもできます。

詳しくはUdemyの以下の講座をチェックしてみてください。

【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう！

【時間】	2.5時間
【レベル】	初級

音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース！

今なら購入時に「USTHVU4USSS6」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください！

＼30日以内なら返金無料／このコースを見てみる

さらに、本記事を通してPythonでのアプリ開発や生成AIに興味を持った方は、当メディアが運営する教育サービス「スタアカ（スタビジアカデミー）」の講座をチェックしてみてください。

AIデータサイエンス特化スクール「スタアカ」

【価格】	ライトプラン：1280円/月プレミアムプラン：149,800円
【オススメ度】
【サポート体制】
【受講形式】	オンライン形式
【学習範囲】	データサイエンスを網羅的に学ぶ実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行うマーケティングの実行プラン策定マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」！！

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します！

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください！

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています！

Pythonが初めての人でも学べるようなカリキュラムにしておりますので是非チェックしてみてください！

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます！

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

＼今すぐ試す／スタアカの受講はこちら

スタビジアカデミーでデータサイエンスをさらに深く学ぼう！

スタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。