Sora 2 擁有更精準的物理模擬、更逼真的畫面與更高的可控性,還加入了同步對話與音效功能。
當 Sora 第一代在 2024 年 2 月問世時,它就像是「AI 影片界的 GPT-1 時刻」。
任何人只要輸入文字提示(text prompt),就能生成極度逼真的影片。
但那時的成果仍不算真正能用於製作的水準——人物肢體常顯得不自然,且不支援原生音效。
如今的 Sora 2,則可說是「AI 影片的 GPT-4 時刻」。
這次的升級幅度,非常驚人。
它成功處理了過去幾乎不可能的動作,例如奧運級體操動作、立槳板上的後空翻(同時精確模擬浮力與剛性),甚至是「貓咪緊抱人類進行三周半旋轉跳」這類場景。
官方新聞稿介紹:https://openai.com/zh-Hant/index/sora-2/
實際範例對比
提示語:「一名男子在立槳板上做後空翻」
Sora(第一代)生成結果:
雖然畫面看起來像在嘗試後空翻,但實際上並沒有發生,且落水動作慢得不自然、物理失真。
Sora 2 生成結果:
這次的水面模擬與人體動作極為自然。
浮力、平衡、反應都貼近真實物理規則。
換成其他 AI 影片模型,人物可能會被扭曲成四不像,或整個畫面變成卡通風格。
他們是如何改進物理模擬的?
OpenAI 說,Sora 第一版的出現,標誌著「AI 生成影片開始變得可信」的時刻。
當時只要透過更大的前訓練運算規模,就能讓模型自發地產生「物體持續性」(object permanence)等基本現象。
但在那之後,他們的重點轉向更高階的「世界模擬(world simulation)」。
團隊指出,若希望 AI 能真正理解現實世界的物理運作,就必須朝這方向持續推進。
目前,大規模影片資料的訓練(包括前訓練與後期微調)仍屬早期階段,相比於語言模型還有很長的路要走。
以「排球」為例:
在早期模型中,排球常會「一球變兩球」,或是球員的身體被扭曲成怪異姿勢,只為了滿足提示語要求。
Sora(舊版)生成結果:
畫面中球體常出現錯誤、物理行為不合邏輯。
Sora 2 生成結果:
球體會如預期般彈跳、反應,並遵循物理規則。
即便出錯時,也更像是真實球員會犯的錯,而非「現實崩壞」的畫面。
此外,Sora 2 的「可控性」也有大幅提升。
你可以輸入包含多鏡頭(multi-shot)的詳細提示,模型能在多個鏡頭間保持場景一致。
無論是寫實電影風格,還是動畫/動漫風格,它都能維持流暢連貫的敘事,不會讓人覺得破綻百出。
原生音訊生成(Native Audio Generation)
你或許已經從前面幾個範例中注意到了——
Sora 2 現在可以同時生成背景音效、語音對話與環境音,真實感令人驚訝。
原生音訊生成也是 Google Veo 3 受到矚目的主要原因之一。
如今 Sora 2 也具備這項功能,這場競爭變得更有看頭。
但誰做得更好呢?
以下是兩個比較範例:
提示語:「一位老教授先用英文說話,接著改用德文。」
Veo 3 生成結果:
聲音與口型對得上,但教授並沒有真正切換成德文。
這可能是因為影片被限制在 8 秒長度之內。
Sora 2 生成結果:
Sora 2 的版本看起來真實得多,人物口型與語音更自然,且講的內容也更長。
在「符合提示語」這點上,Sora 2 顯然勝出。
Sora 2 的限制
不同於第一代,OpenAI 這次在公告中並未明確提到 Sora 2 的限制。
然而,部分獲得早期使用權的用戶,已經發現一些不完美之處。
範例一:
提示語:
「一個人表演魔術,他將水倒進玻璃杯,接著將杯子倒轉,水沒有流出,仍留在倒立的杯中。」
Sora 2 生成結果:
倒水過程一切正常,但當他舉起杯子、傾斜的瞬間,畫面物理就崩壞了。
這問題並非 Sora 2 獨有,即使是 Veo 3 或 Seedream 4 等最先進模型,也依然難以完美模擬水的物理行為。
範例二:
提示語:
「一名男子一邊數數從 1 數到 10,一邊用手指比出數字。」
Sora 2 生成結果:
有趣的是,模型仍然難以準確呈現手指細節。
「手指與腳趾」一向是影像模型中最難處理的部分,影片模型也繼承了這個問題。
OpenAI 表示,他們完全意識到這些限制,並持續努力讓影片模型能更真實地模擬現實世界。
「這個模型還遠未完美,錯誤仍然不少,但這是重要的驗證——
透過擴大影片資料的神經網路訓練規模,我們能更接近真實世界的模擬。」
—— OpenAI
將自己放進 AI 影片中:Cameo 功能
對我而言,Sora 2 最令人驚豔的功能,是名為 Cameo(客串) 的新特性。
Cameo 讓你能把自己(或任何人、任何物件)「注入」Sora 生成的影片中。
你只需進行一次性的人臉與聲音錄製,用來驗證身份與捕捉外貌特徵。
之後,模型就能在任何情境下將你「放入」畫面,OpenAI 稱其為對外貌與聲音的「驚人擬真(remarkable fidelity)」。
在 Sora 2 官方發布影片中,也可以看到多個 Sam Altman(OpenAI 執行長)親自出現在生成影片裡的片段。
Sound on. pic.twitter.com/QHDxq6ubGt
— OpenAI (@OpenAI) September 30, 2025
但這同時也帶來了嚴肅的 隱私與濫用風險。
當系統擁有你的外貌與聲音數據,一旦被誤用,就可能跨越法律與道德界線。
儘管 OpenAI 表示你可以設定誰能使用你的 Cameo,並隨時撤銷權限,
但仍是極為敏感的領域。
有人可能會生成「過於私密」的內容,甚至被用於未經同意的場合。
對青少年用戶而言,風險更高。
OpenAI 雖然導入更嚴格的家長監管機制,但仍難完全防止霸凌、假冒或身份濫用。
「把自己放進影片裡」聽起來有趣,但虛實邊界也因此變得更模糊。
Sora 行動應用程式(Sora Mobile Application)
OpenAI 目前正開發 Sora App,這是一個專注於 AI 影片創作的獨立平台。
根據《Wired》報導,它的操作介面類似 TikTok:直式影片、滑動瀏覽、全 AI 生成內容。
也就是說,你看到的每一支影片,都不是人拍的。

這樣的分離非常重要——
OpenAI 希望讓 Sora 生成的內容在獨立生態中流通,避免與真實世界影像混雜,維持透明與界線。
「我們相信 Sora 將為世界帶來更多快樂、創意與連結。」
—— Sora 團隊
Sora App 的主要功能特色:
-
秒速創作影片:輸入提示語或上傳圖片,Sora 即可生成完整、有聲音的影片。
-
協作與互動:讓自己或朋友加入影片,參與挑戰、潮流與混剪創作。
-
多種風格選擇:可生成電影風、動畫風、寫實、卡通,甚至超現實風格。
-
Remix 功能:可對他人影片重新混剪、改編角色、添加場景或延長劇情。
-
社群互動:內建創作社群,方便用戶發表、交流與發現新作品。
最後的想法
Sora 2 所生成的影片,明顯超越了第一代。
人物動作更自然、音效真實度更高。
雖然在流體模擬(如水)上仍有改進空間,但整體進步巨大。
我也特別欣賞 OpenAI 將 Sora 影片限定在專屬 App 生態中。
目前若 AI 內容與真實影片混在一起,幾乎無法辨識真假,這對信任機制是致命的。
讓 AI 影片有清楚的標示與隔離,對平台信任度至關重要。
Sora 2 的確強大,將重新定義人們創作影片的方式。
但同時,也潛藏被濫用的風險。
希望 OpenAI 這次能在「創意自由」與「安全邊界」之間找到平衡點。

