Python

自分の声のクローンを音声AIで生成してPythonから呼び出して使う方法!

cartesia
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、音声AI「Cartesia」を使って自分の声をクローン化し、Pythonから呼び出して使う方法を徹底解説していきます!自分の声を使って回答するチャットボットを作ってみましょう!

こんにちは!スタビジ編集部です!

近年、AIによる音声合成(Text-to-Speech)が大きく進化し、自分の声で喋るAIアシスタントや自動ナレーション生成が手軽にできる時代になりました。

その中でも特に注目なのが、”Cartesia“という新興の音声AIプラットフォーム。

cartesia

高品質な音声合成とAPI連携が強力で、Pythonからも簡単に扱えるのが特徴です。

Cartesiaって何?機能を知りたい!
音声AIをプログラムに組み込んでみたい!

この記事では、音声AIの概要から、Cartesiaを使った具体的な声クローン生成・Python連携手順までを丁寧に解説していきます。

ウマたん
ウマたん
音声AIの使い方をマスターしよう!

・音声AIとは
・Cartesiaを使って、自分の声のクローンを作る
・Pythonを使って、自分の声で回答するチャットボット実装

音声AIについてガッツリ学びたい方は以下のUdemy講座で解説していますのでチェックしてみてください!

【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう!

【時間】2.5時間
【レベル】初級

音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース!

今なら購入時に「G6X5E8YA」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください!

\30日以内なら返金無料/このコースを見てみる

音声AIとは

音声AI」とは、人間の声や音を理解・生成する人工知能技術のことです。

主に次の3つの技術が組み合わさって構成されています。

技術分野名称概要
音声認識ASR(Automatic Speech Recognition)話した言葉をテキストに変換する技術
例:Google音声入力、Siriの聞き取りなど
音声合成TTS(Text to Speech)テキストを自然な音声に変換する技術
例:ナビ音声やナレーション生成など
音声クローンVoice Cloning / Voice Conversion特定の人の声をAIが学習し、その声質で自由に喋らせる技術
例: Cartesia, ElevenLabsなど

音声AIは以下のような場面で利用されています。

  • 自分の声でニュースやブログ記事を自動朗読
  • 動画ナレーションや教材の自動生成
  • AIキャラクターが自然に会話するアプリ開発
  • 視覚障がい者向けの音声案内サービス

最近では、単なる読み上げではなく、感情表現や抑揚まで再現できる音声AIが登場しており、人間の声と区別がつかないほど自然な発声が可能になっています。

ウマたん
ウマたん
音声AIを使えば、まるで人間が実際に話しているかのように、自然な声で情報を伝えることができるんだね!

代表的な音声AIサービス

現在は多くの音声AIサービスが登場しており、用途や目的に応じて使い分けが可能です。

以下の表では、代表的なサービスの特徴や得意分野をまとめています。

サービス名主な特徴得意分野・用途対応言語
Google Cloud Text-to-Speech安定性・多言語対応が強み。
高品質な音声モデルを多数搭載し、自然な発音を実現。
企業向けナレーション生成、翻訳音声、チャットボットなど100+ 言語対応
OpenAI TTSChatGPTやAPIと統合されており、テキスト→音声を即座に変換可能。
リアルタイム会話に最適。
AIアシスタント、会話アプリ、教育・対話用途英語中心(日本語対応あり)
ElevenLabs高品質な音声クローンに定評。
感情表現・イントネーションが非常に自然。
ナレーション、YouTube動画、ゲームボイス、音声ブック制作など英語・日本語など
Cartesia高音質・低レイテンシーのTTS API。
数分の音声から自分の声のクローンを生成可能でPython連携も容易。
自分の声で喋るAI、Webアプリ・チャットボット開発、教育・接客システム英語中心(日本語は実験対応)

このように、音声AIといっても「話すAI」「読むAI」「聞くAI」など用途によって特徴が異なります。

本記事で扱う”Cartesia“は「自分の声をクローン化して自然な発話を行う」タイプの音声AIになります。

Cartesiaで自分の音声クローンを作成してみよう!

実際にCartesiaを使って自分の音声クローンを作ってみましょう。

作成する手順は以下になります。

  1. Cartesiaに登録・サインイン
  2. 音声クローン作成
  3. 音声クローンを確認・テスト再生
ウマたん
ウマたん
それではいよいよ、自分の声をAIに学習させて「声のクローン」を作っていくよ!

難しそうに聞こえるけど、実際は10分ほどでできちゃうんだ〜!

Cartesiaに登録・サインイン

Cartesiaの公式サイトにアクセスし、右上の「Start for Free」からアカウントを新規登録します。(すでにアカウントがアカウントがある方は「Sigi In」からサインインしてください。)

cartesia

アカウントはメールアドレスで新規作成する他、Githubアカウント・Googleアカウントでサインインすることも可能です。

サインインすると「Text to Speech」の画面に遷移します。

cartesia

音声クローン作成

音声クローンの作成は左側のメニューにある「Instant Clone」から行います。

cartesia

音声サンプルは録音したものをアップロードすることも出来ますし、その場で録音することも出来ます。

「Record」というボタンを押すと録音が始まるので、実際に話してみて下さい。(3~10秒くらい話すだけでよいそうです。)

音声サンプルが出来たら、右側の「Detail」で名前とLanguageを入力します。

cartesia

必要情報の入力が終わったら、右上の「Clone」ボタンを押すと、サンプルを元に音声クローンが作成されます。

音声クローンを確認・テスト再生

音声クローンが作成されると、「Voices」の「My Voices」に登録されます。

cartesia

「Speak」ボタンを押して自分の音声クローンを聞いてみて下さい。

声質だけでなく声の高さや抑揚までかなり似ていると思います。

また、作成した音声クローンで文章を読ませてみましょう。

左側メニューの「Text to Speech」に移動します。

文章を入力して、「Voice」には先ほど作成した音声クローンを選択したら、「Speak」ボタンを押して再生しましょう。

cartesia

本当に自分がしゃべっているかのように自然な感じで、文章を読み上げてくれます。

ウマたん
ウマたん
こんな高精度の音声クローンを簡単に利用できるってすごい!

Pythonと音声クローンを組み合わせてみよう!

CartesiaはPythonと簡単に連携が出来て、音声クローンをアプリに組み込めることが特長です。

実際にPythonを使って自分の音声クローンで返答するチャットボットを作ってみましょう。

今回はPythonの実行環境に「Google Colaboratory」を使います。

Google Colaboratoryについては、下記の記事で詳しく解説しているのでチェックしてみて下さい。

Google Colaboratory
Google Colaboratoryのメリットと使い方!GPU環境でPython回すならこれだ!当サイト【スタビジ】の本記事では、Googleが無償で提供する機械学習のプラットフォーム「Google Colaboratory」をメリット・デメリット・使い方について見ていきます!実際にPythonを実行していきGPUの威力を見ていきます。...

PythonでAPIを使って音声クローンを呼び出す

まずは基本的なPythonコードで音声クローンを呼び出す処理を見ていきます。

音声クローンを呼び出すためには「API Key」と「ボイスID」の取得が必要です。

API Key取得

「API Key」はCartesiaの画面から左側メニューの「API Keys」>「+New」ボタンから取得できます。

cartesia

ボイスID取得

ボイスIDはCartesiaの画面から左側メニューの「Voices」>「My Voices」に移動して、対象のVoiceのタブから「Copy ID」で取得できます。

cartesia

PythonでAPIを使って呼び出す

取得した情報は、Google Colaboratoryの「シークレット」に格納します。

cartesia

特にAPI Keyは漏れると勝手に利用されてしまうので、プログラム内に直接書かないことがオススメです。

pip install cartesia

まず必要なライブラリをインストールします。

  • cartesia:HTTPリクエストを手で書かずに、CartesiaのAPI(音声合成・クローン作成など)を簡単に呼び出せるようにするためのライブラリ

実際にAPIを呼び出すプログラムを実行します。

from cartesia import Cartesia
from IPython.display import Audio, display
from google.colab import userdata

API_KEY  = userdata.get('Cartesia_API')
VOICE_ID = userdata.get('Voice_ID')


client = Cartesia(api_key=API_KEY)

text_ja = (
    "こんにちは、これはCartesiaの音声クローンのテストです。"
    "スタビジの記事のデモ用に、日本語で読み上げています。"
)

audio_iter = client.tts.bytes(
    model_id="sonic-3",
    transcript=text_ja,
    voice={"mode": "id", "id": VOICE_ID},
    output_format={
        "container": "wav",      # 公式例に合わせてwavを推奨
        "sample_rate": 44100,
        "encoding": "pcm_f32le",
    },
)

out_path = "clone_demo.wav"
with open(out_path, "wb") as f:
    for chunk in audio_iter:
        f.write(chunk)

print(f"✅ 生成完了: {out_path}")
display(Audio(out_path))

Cartesiaのライブラリでtext-to-speechを呼び出します。

実行すると音声ファイルが生成されます。

cartesia

再生するとCartesiaのサイトで実行したように、音声クローンで文章を読み上げてくれます。

音声クローンで回答するチャットボットを作ってみよう

最後にChatGPTと組み合わせて、ユーザーの質問を音声クローンで回答するチャットボットを作ってみましょう。

Pythonを使ったチャットボットの作り方は以下の記事で詳しく解説しているのでチェックしてみて下さい。

【コード付き】Pythonを使ったチャットボットの作り方を解説!当サイト【スタビジ】の本記事では、Pythonを使ったチャットボットの作り方をコードによる実装も含めて解説していきます!ChatGPTにより、高度な回答が可能なチャットボットが簡単に作れるようになりました。本記事を読んで自分なりのチャットボットを作っていきましょう!...
from io import BytesIO
from cartesia import Cartesia
from openai import OpenAI
from IPython.display import Audio, display
from google.colab import userdata

# --- シークレット(Colabの「シークレットを管理」で設定) ---
CARTESIA_API_KEY = userdata.get('Cartesia_API')
CARTESIA_VOICE_ID = userdata.get('Voice_ID')
OPENAI_API_KEY    = userdata.get('OPENAI_API_KEY')


# --- クライアント ---
cartesia = Cartesia(api_key=CARTESIA_API_KEY)
oai = OpenAI(api_key=OPENAI_API_KEY)

# CartesiaでTTSを実行
def tts_bytes(text: str, voice_id: str) -> bytes:
    """CartesiaでTTSして音声バイト列を返す(ファイル保存なし)"""
    stream = cartesia.tts.bytes(
        model_id="sonic-3",
        transcript=text,
        voice={"mode": "id", "id": voice_id},
        output_format={
            "container": "wav",
            "sample_rate": 44100,
            "encoding": "pcm_f32le",
        },
    )
    buf = BytesIO()
    for chunk in stream:
        buf.write(chunk)
    return buf.getvalue()

# ChatGPTで回答作成⇒Cartesiaで発声
user = input("あなた> ").strip()
if not user:
    print("👋 入力がありません。終了します。")
else:
    print("🧠 GPT-5 が考え中...")
    completion = oai.chat.completions.create(
        model="gpt-5",
        messages=[
            {"role": "system", "content": "あなたは親しみやすく丁寧な日本語で話すアシスタントです。"},
            {"role": "user", "content": user},
        ],
    )

    reply = completion.choices[0].message.content.strip()

    print("🎙 Cartesia で音声生成中...")
    audio_data = tts_bytes(reply, CARTESIA_VOICE_ID)

    # Colab上で再生(クリックで再生)
    display(Audio(data=audio_data, rate=44100))

今回は「ユーザーからの入力を受け取り」⇒「ChatGPTで回答文作成」⇒「Cartesiaで発声」というシンプルな構成です。

このプログラムを実行すると、質問の回答を読み上げてくれます。

cartesia
ウマたん
ウマたん
ChatGPTとCartesiaを組み合わせることで、質問を音声で回答してくれるアプリが簡単に作れる!

音声AI まとめ

音声AIの概要とPythonでの利用方法について見ていきました。

ウマたん
ウマたん
音声クローンの精度にびっくり!Pythonと組み合わせていろんな音声アプリを作ってみよう!

今回はGoogle Colaboratoryの仕様上、ブラウザの自動操作(音声プレイヤーを自動で再生)が難しいので、手動で再生する必要がありました。

これを自動で回答したい場合は、Streamlitを使うことで簡単に応答アプリを作ることも出来ます。

詳しくはUdemyの以下の講座をチェックしてみて下さい。

【初心者向け】音声AIでクローンボイスを作りOpenAIのAPIと組み合わせてチャットボットを構築してみよう!

【時間】2.5時間
【レベル】初級

音声AIでクローンボイスを作る方法や音声チャットボットを作る方法を学びたいならこのコース!

今なら購入時に「G6X5E8YA」という講師クーポンコードを入れると90%オフ以上の割引価格になりますのでぜひご受講ください!

\30日以内なら返金無料/このコースを見てみる

さらに、本記事を通してPythonでのアプリ開発や生成AIに興味がある方はスタアカをもっと勉強したいと思った方は、当メディアが運営する教育サービス「スタアカ(スタビジアカデミー)」の講座をチェックしてみてください。

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組み合わせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムにしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら