Google 近日為其 Gemini 3.1 系列注入強大動能,發表了全新文字轉語音模型 「Gemini-TTS」。這款被官方譽為「史上最具表現力」的語音方案,徹底打破了傳統 AI 語音單調平板的印象。其核心突破點在於:開發者現在能直接透過**提示詞(Prompt)**精確導引語音的情緒、節奏與風格,讓 AI 說話也能像真人般富有感染力。
Google 近日為其 Gemini 3.1 系列注入強大動能,發表了全新文字轉語音模型 「Gemini-TTS」。這款被官方譽為「史上最具表現力」的語音方案,徹底打破了傳統 AI 語音單調平板的印象。其核心突破點在於:開發者現在能直接透過提示詞(Prompt)精確導引語音的情緒、節奏與風格,讓 AI 說話也能像真人般富有感染力。
告別機械音:用提示詞精準「導戲」
Gemini-TTS 最令人驚豔的特點是高度的可操控性。開發者不再受限於預設音檔,而是能像導演一樣,在提示詞中要求 AI 展現興奮、專業或哀傷等不同情緒。透過微調語速與停頓,語音內容將能完美契合情境,使 AI 助理或語音客服的對話體驗更貼近人類表現。
跨越語言屏障:支援 70 種語系與智慧偵測
在全球化應用方面,Gemini-TTS 展現了強悍的相容性:
- 多語系支援: 涵蓋繁體中文、英文、日文等全球約 70 種主流語言。
- 自動語系偵測: 模型可自動識別輸入文字的語言,開發者無須手動標註即可無縫生成對應語音。
- 全球化規模: 企業可透過統一 API 將此技術導入有聲書、Podcast 或全球客服系統,大幅降低在地化成本。
即時互動新標竿:鎖定低延遲語音代理
為了因應智慧導航與線上會議等即時需求,Google 特別優化了 Gemini-TTS 的回應速度。當它與 Gemini 3.1 Flash Live 等音訊模型協同運作時,能大幅降低延遲,實現極度流暢且具備情緒層次的即時對話體驗。這項技術進步預示著未來的 AI 語音代理將在互動中表現得更加自然。
結語:內容創作的門檻大降
過去調整語音情緒需要繁瑣的標籤與後製,現在只需輸入「請用神祕的語氣朗讀」,AI 就能自動掌握神韻。Google 成功將 Gemini 的強大理解力引入語音生成領域,不僅提升了生產效率,更讓高品質的語音內容製作變得前所未有的簡單。



