【科技前瞻】掌握 Google Gemini Omni 核心:原生多模態與對話式影片編輯新時代

圖片取至Introducing Gemini Omni: Create Anything from Anything
圖片取至Introducing Gemini Omni : Create Anything from Anything

 

科技產業迎來全新變革。Google 在 I/O 大會正式發表最新一代思維模型 Google Omni 。這款技術被定位為邁向 AGI(通用人工智慧)的重要世界模型 (World Model)。這波核心技術的底層演進,正在加速重組全球企業的數位生產力戰線。

 

Gemini Omni 的核心特色

Gemini Omni 的底層架構帶來了三大技術突破:

  • 對話式影片編輯 (Conversational Video Editing) 這是 Gemini Omni 最具革命性的功能。它放棄了傳統的時間軸剪輯邏輯。使用者可以直接用自然語言(文字或語音)對現有影片下達修改指令。例如直接下達「把背景換成東京丸之內街景」或「把主角的手臂變成金屬材質」,系統即可精準執行。
  • 真實物理邏輯引擎 過去的 AI 影片生成模型通常只是在模仿像素的移動。Gemini Omni 在運算時內建了對重力、流體動力學與動能的物理理解。生成的動態畫面(如水波紋的擴散、物體掉落的軌跡)會完全符合現實世界的物理法則。
  • 內建 SynthID 數位浮水印 為了因應深度偽造 (Deepfake) 的資安風險,所有由 Gemini Omni 生成或修改的影像內容,都會強制嵌入肉眼不可見的 SynthID 浮水印,確保商業資訊的透明度與安全性。
圖片取至Introducing Gemini Omni: Create Anything from Anything 片段內容
圖片取至Introducing Gemini Omni: Create Anything from Anything 片段內容

 

原生多模態的輸入格式進化

這是 Gemini Omni 被稱為「原生多模態 (Natively Multimodal)」的技術關鍵。我們將其與以往的模型進行對比:

AI 影片模型比較

以往 AI 影片生成的商業痛點

在 Gemini Omni 問世之前,企業行銷團隊與影音創作者在使用 AI 工具時,經常面臨三大瓶頸:

  • 盲盒式的生成邏輯

過去生成影片如同抽盲盒。如果算出來的影片只有「背景不對」,使用者無法單獨修改背景,只能修改提示詞重新生成,這常導致原本正確的主角特徵也跟著改變。

  • 角色與環境的不連貫

過去的模型難以在長時間的影片或不同鏡頭中,維持同一個人物的長相、穿著或特定場景的一致性 (Character Consistency)。

  • 不符合物理常理的畫面

影片中的人物肢體容易出現融合、扭曲,或是出現違反重力的詭異動作,無法直接投入高品質的商業用途。

 

Gemini Omni 的解決方案

Gemini Omni 透過底層演算法全面修正了上述問題:

  • 解決「盲盒生成」與「不連貫」

透過對話式編輯,Gemini Omni 具備極強的上下文記憶能力。創作者可以輸入一段既有素材,像跟助理溝通一樣說:「保留左邊的主角,但把鏡頭拉遠」。Omni 能在鎖定角色特徵與環境細節的前提下進行局部修改,連續疊加多次編輯也不會讓畫面走鐘。

  • 解決「物理崩壞」

由於系統升級為「世界模型」,它在運算畫面時會套用真實世界的物理法則。物體的互動、光影的反射(例如手指觸碰鏡面時產生液態漣漪的特效)皆能達到極高的逼真度。

以往 AI 影片生成的商業痛點m與Gemini Omni 的解決方案

 

目前的開放使用管道

Google 目前採取分階段的釋出策略,目前的最新使用管道如下:

  • 一般用戶與創作者

Google 已開始將 Gemini Omni Flash 模型整合進 YouTube Shorts 與 YouTube Create App 中。用戶可以免費使用它來混合素材或生成特效。

  • 進階訂閱用戶

全球的 Google AI Plus, Pro, 與 Ultra 的訂閱者,現在已經可以直接在 Gemini App 與 Google Flow 中,使用 Omni Flash 模型進行高階的影片生成與對話式編輯。

  • 開發者與企業端

運算能力更強大的 Gemini Omni Pro 模型目前仍在開發中。API 的存取權限將於未來幾週內,正式向企業客戶與第三方開發者開放。

 

以下是 Introducing Gemini Omni: Create Anything from Anything 的影片