OpenAI Sora 2 震撼登場!

Sora 2 擁有更精準的物理模擬、更逼真的畫面與更高的可控性，還加入了同步對話與音效功能。

當 Sora 第一代在 2024 年 2 月問世時，它就像是「AI 影片界的 GPT-1 時刻」。
任何人只要輸入文字提示（text prompt），就能生成極度逼真的影片。
但那時的成果仍不算真正能用於製作的水準——人物肢體常顯得不自然，且不支援原生音效。

如今的 Sora 2，則可說是「AI 影片的 GPT-4 時刻」。
這次的升級幅度，非常驚人。

它成功處理了過去幾乎不可能的動作，例如奧運級體操動作、立槳板上的後空翻（同時精確模擬浮力與剛性），甚至是「貓咪緊抱人類進行三周半旋轉跳」這類場景。

官方新聞稿介紹：https://openai.com/zh-Hant/index/sora-2/

- 實際範例對比
他們是如何改進物理模擬的？
原生音訊生成（Native Audio Generation）
Sora 2 的限制
將自己放進 AI 影片中：Cameo 功能
Sora 行動應用程式（Sora Mobile Application）
- Sora App 的主要功能特色：
最後的想法

實際範例對比

提示語：「一名男子在立槳板上做後空翻」

Sora（第一代）生成結果：
雖然畫面看起來像在嘗試後空翻，但實際上並沒有發生，且落水動作慢得不自然、物理失真。

Sora 2 生成結果：
這次的水面模擬與人體動作極為自然。
浮力、平衡、反應都貼近真實物理規則。
換成其他 AI 影片模型，人物可能會被扭曲成四不像，或整個畫面變成卡通風格。

他們是如何改進物理模擬的？

OpenAI 說，Sora 第一版的出現，標誌著「AI 生成影片開始變得可信」的時刻。
當時只要透過更大的前訓練運算規模，就能讓模型自發地產生「物體持續性」（object permanence）等基本現象。

但在那之後，他們的重點轉向更高階的「世界模擬（world simulation）」。
團隊指出，若希望 AI 能真正理解現實世界的物理運作，就必須朝這方向持續推進。

目前，大規模影片資料的訓練（包括前訓練與後期微調）仍屬早期階段，相比於語言模型還有很長的路要走。

以「排球」為例：
在早期模型中，排球常會「一球變兩球」，或是球員的身體被扭曲成怪異姿勢，只為了滿足提示語要求。

Sora（舊版）生成結果：
畫面中球體常出現錯誤、物理行為不合邏輯。

Sora 2 生成結果：
球體會如預期般彈跳、反應，並遵循物理規則。
即便出錯時，也更像是真實球員會犯的錯，而非「現實崩壞」的畫面。

此外，Sora 2 的「可控性」也有大幅提升。
你可以輸入包含多鏡頭（multi-shot）的詳細提示，模型能在多個鏡頭間保持場景一致。
無論是寫實電影風格，還是動畫／動漫風格，它都能維持流暢連貫的敘事，不會讓人覺得破綻百出。

原生音訊生成（Native Audio Generation）

你或許已經從前面幾個範例中注意到了——
Sora 2 現在可以同時生成背景音效、語音對話與環境音，真實感令人驚訝。

原生音訊生成也是 Google Veo 3 受到矚目的主要原因之一。
如今 Sora 2 也具備這項功能，這場競爭變得更有看頭。

但誰做得更好呢？
以下是兩個比較範例：

提示語：「一位老教授先用英文說話，接著改用德文。」

Veo 3 生成結果：
聲音與口型對得上，但教授並沒有真正切換成德文。
這可能是因為影片被限制在 8 秒長度之內。

Sora 2 生成結果：
Sora 2 的版本看起來真實得多，人物口型與語音更自然，且講的內容也更長。
在「符合提示語」這點上，Sora 2 顯然勝出。

Sora 2 的限制

不同於第一代，OpenAI 這次在公告中並未明確提到 Sora 2 的限制。
然而，部分獲得早期使用權的用戶，已經發現一些不完美之處。

範例一：

提示語：
「一個人表演魔術，他將水倒進玻璃杯，接著將杯子倒轉，水沒有流出，仍留在倒立的杯中。」

Sora 2 生成結果：
倒水過程一切正常，但當他舉起杯子、傾斜的瞬間，畫面物理就崩壞了。
這問題並非 Sora 2 獨有，即使是 Veo 3 或 Seedream 4 等最先進模型，也依然難以完美模擬水的物理行為。

範例二：

提示語：
「一名男子一邊數數從 1 數到 10，一邊用手指比出數字。」

Sora 2 生成結果：
有趣的是，模型仍然難以準確呈現手指細節。
「手指與腳趾」一向是影像模型中最難處理的部分，影片模型也繼承了這個問題。

OpenAI 表示，他們完全意識到這些限制，並持續努力讓影片模型能更真實地模擬現實世界。

「這個模型還遠未完美，錯誤仍然不少，但這是重要的驗證——
透過擴大影片資料的神經網路訓練規模，我們能更接近真實世界的模擬。」
—— OpenAI

將自己放進 AI 影片中：Cameo 功能

對我而言，Sora 2 最令人驚豔的功能，是名為 Cameo（客串） 的新特性。

Cameo 讓你能把自己（或任何人、任何物件）「注入」Sora 生成的影片中。
你只需進行一次性的人臉與聲音錄製，用來驗證身份與捕捉外貌特徵。
之後，模型就能在任何情境下將你「放入」畫面，OpenAI 稱其為對外貌與聲音的「驚人擬真（remarkable fidelity）」。

在 Sora 2 官方發布影片中，也可以看到多個 Sam Altman（OpenAI 執行長）親自出現在生成影片裡的片段。

Sound on. pic.twitter.com/QHDxq6ubGt

— OpenAI (@OpenAI) September 30, 2025

但這同時也帶來了嚴肅的 隱私與濫用風險。

當系統擁有你的外貌與聲音數據，一旦被誤用，就可能跨越法律與道德界線。
儘管 OpenAI 表示你可以設定誰能使用你的 Cameo，並隨時撤銷權限，
但仍是極為敏感的領域。
有人可能會生成「過於私密」的內容，甚至被用於未經同意的場合。

對青少年用戶而言，風險更高。
OpenAI 雖然導入更嚴格的家長監管機制，但仍難完全防止霸凌、假冒或身份濫用。
「把自己放進影片裡」聽起來有趣，但虛實邊界也因此變得更模糊。

Sora 行動應用程式（Sora Mobile Application）

OpenAI 目前正開發 Sora App，這是一個專注於 AI 影片創作的獨立平台。
根據《Wired》報導，它的操作介面類似 TikTok：直式影片、滑動瀏覽、全 AI 生成內容。
也就是說，你看到的每一支影片，都不是人拍的。

這樣的分離非常重要——
OpenAI 希望讓 Sora 生成的內容在獨立生態中流通，避免與真實世界影像混雜，維持透明與界線。

「我們相信 Sora 將為世界帶來更多快樂、創意與連結。」
—— Sora 團隊

Sora App 的主要功能特色：

秒速創作影片：輸入提示語或上傳圖片，Sora 即可生成完整、有聲音的影片。
協作與互動：讓自己或朋友加入影片，參與挑戰、潮流與混剪創作。
多種風格選擇：可生成電影風、動畫風、寫實、卡通，甚至超現實風格。
Remix 功能：可對他人影片重新混剪、改編角色、添加場景或延長劇情。
社群互動：內建創作社群，方便用戶發表、交流與發現新作品。

最後的想法

Sora 2 所生成的影片，明顯超越了第一代。
人物動作更自然、音效真實度更高。
雖然在流體模擬（如水）上仍有改進空間，但整體進步巨大。

我也特別欣賞 OpenAI 將 Sora 影片限定在專屬 App 生態中。
目前若 AI 內容與真實影片混在一起，幾乎無法辨識真假，這對信任機制是致命的。
讓 AI 影片有清楚的標示與隔離，對平台信任度至關重要。

Sora 2 的確強大，將重新定義人們創作影片的方式。
但同時，也潛藏被濫用的風險。
希望 OpenAI 這次能在「創意自由」與「安全邊界」之間找到平衡點。

最新文章

2025 最新 AI 工具大全：60 款商業必備工具完整分類

OpenAI Sora 2 震撼登場!

想用 ChatGPT 寫文又怕被抓？5招教你寫出連 AI 偵測器都分不出來的真人文風！

實際範例對比

他們是如何改進物理模擬的？

原生音訊生成（Native Audio Generation）

Sora 2 的限制

將自己放進 AI 影片中：Cameo 功能

Sora 行動應用程式（Sora Mobile Application）

Sora App 的主要功能特色：

最後的想法

2025 最新 AI 工具大全：60 款商業必備工具完整分類

Perplexity Deep Research：AI 研究的下一場革命，能否超越 OpenAI 與 Google？

Google Gemini 2.0 AI 搜索：全方位超越 ChatGPT，真正的資訊搜尋革命！

100小時實戰心得-解密地表最強 Claude AI教學攻略

Perplexity Deep Research：AI 研究的下一場革命，能否超越 OpenAI 與 Google？

AI正悄悄偷走你的思考力？微軟&Anthropic研究揭露驚人真相，99%的人都沒發現！

Subscribe to Updates

最新文章

OpenAI Sora 2 震撼登場!

實際範例對比

他們是如何改進物理模擬的？

原生音訊生成（Native Audio Generation）

Sora 2 的限制

將自己放進 AI 影片中：Cameo 功能

Sora 行動應用程式（Sora Mobile Application）

Sora App 的主要功能特色：

最後的想法

相關文章