AI生成影片技術持續高速演進,馬斯克旗下xAI近日正式推出全新影片生成模型 Grok Imagine Video 1.5,除了運算速度大幅提升,更進一步改善畫面品質、動作流暢度與音訊同步能力,讓AI從「生成影片」邁向「創作影音」的新階段。

圖 / PicLuman
Grok Imagine Video 1.5最大的特色,在於支援「圖生影片(Image-to-Video)」功能。使用者只需上傳一張靜態照片,再輸入文字描述希望呈現的鏡頭運動、人物動作、場景氛圍、光影變化甚至背景音效,AI便能將原本靜止的畫面轉化為一段具有生命力的短影片。
不同於一般僅能套用動畫效果的工具,Grok會分析圖片中的人物、物件、構圖、光線與空間關係,再依據文字指令重新推演畫面發展,因此生成的影片更自然,也能盡可能保留原始照片的風格與細節,讓畫面看起來像是真實拍攝的延伸,而非生硬的特效拼接。
這次升級最令人關注的,莫過於生成效率的大幅改善。xAI表示,Grok Imagine Video 1.5 Fast約25秒即可完成一段6秒、720p解析度的影片,相較前一代超過40秒的等待時間,大幅縮短近四成。不只是速度提升,新模型在人物肢體動作、鏡頭轉換、物件移動軌跡以及物理模擬上都更加自然,人物五官變形、物件穿模等AI影片常見問題也有所改善。
另一項進步則是音訊品質。新版模型加入更完整的聲音生成能力,不論環境音、背景音效或人物對話,都能與畫面節奏更加同步,讓短短數秒的影片也能呈現更具臨場感的影音效果,降低後續剪輯與配音的工作量。
目前一般用戶可透過Grok免費方案體驗部分AI生成能力,若需要更高的圖片與影片生成額度,則可訂閱SuperGrok服務。對企業與開發者而言,也可透過xAI API串接服務,以720p影片每秒0.14美元計價,生成一支6秒影片約0.84美元,折合新台幣不到30元,就能快速完成具備商業水準的AI短片。
值得注意的是,AI影片生成市場競爭正快速升溫,包括Google、OpenAI、Runway、Pika、Luma AI等業者都持續推出新模型,不斷提升畫質、生成速度與可控制性。各家技術差距正逐漸縮小,未來比拚的不再只是模型能力,而是誰能提供更完整的創作流程、更低的成本,以及更容易融入內容製作的工作環境。
隨著AI影音工具愈來愈成熟,影片創作的門檻也正快速下降。過去需要攝影、剪輯、動畫與後製團隊共同完成的工作,如今透過一張圖片與幾句文字指令,就有機會在短時間內完成初步作品。這不僅讓自媒體創作者、行銷人員與設計師擁有更多創作可能,也預示AI將逐步成為影像製作的重要夥伴,加速影音內容生產邁向人人皆可創作的新時代。



