Google 近日正式推出全新語音翻譯模型 Gemini 3.5 Live Translate,不僅支援超過70種語言的即時翻譯,更能同步保留說話者原有的語氣、語調與說話節奏,讓跨語言溝通變得更加自然流暢。這項技術目前已陸續整合至開發者平台、企業版會議服務以及行動翻譯應用中,象徵AI語音翻譯正式邁向即時互動的新階段。
Google透露,目前旗下翻譯服務每月處理的翻譯量已超過一兆字,這個驚人的數字不僅代表全球用戶需求,也反映其二十多年來在語言技術領域的深厚累積。而Gemini 3.5 Live Translate,正是建立在這樣的基礎之上。
與傳統翻譯系統最大的不同,在於它採用了真正的「語音對語音」即時翻譯模式;過去的翻譯工具往往必須等使用者完整說完一句話後才能開始翻譯,因此容易造成對話中斷與節奏失衡。如今,Gemini透過持續生成技術,在準確度與反應速度之間即時取得平衡,讓翻譯內容能夠幾乎同步輸出,大幅縮短等待時間。
更重要的是,系統不再只是單純轉換文字內容,而是嘗試保留說話者的情感與表達方式,包括語調高低、停頓節奏以及聲音起伏,讓跨語言交流更接近真人對談的體驗。此外,平台可自動辨識超過70種語言,使用者無需事先手動設定,大幅降低使用門檻。
目前Google已同步開放多個應用場景,開發者可透過 Gemini Live API 與 Google AI Studio 搶先體驗;企業用戶則可在 Google Meet 中測試即時翻譯功能;而全球 Android 與 iOS 使用者,也能透過新版 Google 翻譯 App 直接使用相關能力。
值得注意的是,Android版本還新增了「聆聽模式」。使用者只需將手機靠近耳朵,即可透過聽筒收聽翻譯內容,不必外接耳機,也不會影響周遭環境。無論是在博物館聆聽外語導覽,或是在安靜空間接聽國際電話,都能獲得更便利的體驗。
然而,AI即時翻譯市場早已不是單一玩家的競爭。包括 Meta 的 SeamlessM4T、Samsung Electronics 的 Galaxy AI、Apple 的 Live Translation,以及 OpenAI 的 Realtime API,都在積極布局這條賽道。
但Google真正的優勢,或許並不完全來自模型本身,而是其龐大的產品生態系。從全球數十億用戶使用的Google翻譯,到企業市場普及的 Google Meet,再到覆蓋全球的Android裝置,每一次功能更新都能迅速觸及大量使用者,而不需要額外培養新的使用習慣。
這樣的優勢已經開始展現在實際應用上。例如東南亞科技平台 Grab 正測試利用 Gemini 3.5 Live Translate 協助司機與乘客進行跨語言溝通。面對泰語、越南語、印尼語、馬來語及菲律賓語等多元語言環境,即時翻譯不再只是便利功能,而逐漸成為數位服務不可或缺的基礎能力。
隨著更多企業與開發者投入測試,市場回饋顯示翻譯品質、反應速度與穩定性皆有不錯表現。可以預見,當AI翻譯從「翻譯工具」進化為「即時溝通基礎設施」時,語言將不再是全球交流的門檻,而是被科技自然地隱藏在對話背後。



