OpenAI發佈文生視頻模型Sora(附圖片)

生成式人工智能領域迎來爆炸性進展。美國當地時間2月15日,OpenAI在其官網發佈文生視頻模型Sora。根據官網的演示,用戶在Sora上輸入一段文字指令,瞬間可以生成一段60秒、有電影質感的視頻。

OpenAI在其官網上展示了由Sora生成的48個視頻,這些視頻對人物、動物或是其他物品的特寫纖毫畢現,背景豐富、細節生動、運鏡流暢,從一些畫面中能感受到豐富的情感。一個提示詞爲“中國農曆龍年新年慶祝”的視頻展示了中國傳統的舞龍場景,龍頭活靈活現,龍身靈活遊動,在觀看舞龍的人羣中,有人揮舞着小紅旗,有人拿出手機拍攝,儘管不是主角,但他們也被Sora賦予了歡度春節的快樂表情。在另一個演示視頻裏,一位頭髮梳得整整齊齊的祖母站在木製餐桌旁,桌上有一個五顏六色的生日蛋糕,上面擺放着許多蠟燭,她身體前傾,眼睛裏閃耀着幸福的光芒,輕輕地吹滅蠟燭,蛋糕上有粉紅色的糖霜,在這個場景中,Sora給視頻賦予溫暖的色調和柔和的燈光,增強了氣氛。難怪有網友看了視頻展示後,評論說:不久的將來,把一個劇本輸入進去,一部電影就能自動生成了。

近年來,隨着大模型熱潮的撲面而來,一些人工智能創業企業也推出了文生視頻的模型。比如,去年4月一家AI初創公司就推出一項技術,只需在電腦屏幕的輸入框裏輸入一個句子,就可以生成幾秒鐘略顯混亂的視頻。但這些模型激起的水花遠不如Sora,業內人士分析表示,Sora不是一個簡單的視頻生成器,而是一個數據驅動的物理引擎,對虛擬和現實世界進行模擬。在這個過程中,模擬器通過去噪等方法來學習複雜的視覺渲染,構建出更爲直觀的效果。

OpenAI在Sora的技術報告中表示,視頻生成模型是構建物理世界通用模擬器的有效途徑,Sora是一個能夠理解和模擬現實世界的模型,是實現通用人工智能的重要里程碑。那麼,Sora對文生視頻的意義真的有那麼重要嗎?我們不妨從Sora的一些技術亮點中一探究竟。

根據上述技術報告,Sora是一種通用的視覺數據模型,它可以生成跨越時間、橫豎比和分辨率的視頻和圖像,生成最多達一分鐘的高清視頻。OpenAI藉助了與GPT模型類似的Transformer架構,該架構在視頻和圖像潛在代碼的時空補丁上運行。

Sora生成的視頻在尺寸上具有很高的靈活性。以往,圖像和視頻的生成通常需要將採樣視頻進行大小調整、裁剪至標準尺寸,而事實上,研究發現在原始視頻上進行採樣會有更好的生成效果。Sora可以對1920×1080的橫屏視頻、1080×1920的垂直視頻以及介於兩者之間的所有視頻規格進行採樣,這讓Sora可以直接爲不同尺寸的設備創建內容,並且Sora還允許在生成高分辨率的內容之前,以較低的分辨率幫助用戶快速創建內容。

在語言理解方面,Sora也有可圈可點之處。從訓練文本到視頻生成需要大量帶有相應文本字幕的視頻,OpenAI將其圖像生成模型的第三個版本DALL·E3的字幕技術應用到視頻,首先訓練一個具有高度描述性的字幕生成器模型,然後使用它爲所有視頻生成文本字幕,從而提高文本真實度以及視頻的整體質量。此外,研究團隊還藉助GPT將簡短的用戶提示轉換爲更爲詳細的指令,然後發送給視頻模型,這讓Sora能夠準確遵循用戶提示生成高質量視頻。

在視頻編輯方面,Sora能夠向前或向後擴展視頻,比如在一段生成視頻拓展出三個新視頻,新視頻的開頭各不相同,但擁有相同的結尾。Sora還實現了從文本提示中編輯圖像和視頻的方法,比如將SDEdit技術應用於Sora,能實現零鏡頭轉換改變視頻風格的功能。用戶還可以使用Sora在兩個視頻之間進行轉場,實現完全不同主題和場景視頻之間的無縫過渡。

此外,在新興的仿真功能方面,視頻模型在大規模訓練時表現出許多有趣的能力。比如,3D的一致性讓Sora可以生成具有動態相機效果的運動視頻;模擬能力讓Sora實現視頻裏動作的延續:畫家在畫布上留下的筆觸會隨着時間的推移而持續。

Sora發佈後不久,360集團創始人周鴻禕在微博中表示:“這都是大模型的功勞,OpenAI訓練這個模型應該會閱讀大量視頻,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離AGI(通用人工智能)不遠了,可能一兩年就可以實現。”他表示,Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻纔是真實的,才能跳出2D的範圍模擬真實的物理世界。這也代表未來的方向,有強勁的大模型做底子,基於對人類語言的理解、對人類知識和世界模型的瞭解,再疊加很多其他的技術,就可以創造各個領域的超級工具。他預測,Sora至少將對機器人具身智能和自動駕駛帶來巨大影響。

當然,Sora作爲視頻生成模擬器也表現出許多侷限性。OpenAI坦言,它可能難以準確模擬複雜場景的物理特性,可能無法理解因果關係。例如,視頻中的人物咬了一口餅乾,但餅乾可能沒有咬痕。該模型還可能混淆空間細節,例如左右混淆,難以精確呈現隨時間推移發生的事件等。但不管怎樣,Sora展現的不僅僅是視頻生成的能力,而是人工智能大模型對真實世界有了理解和模擬之後帶來的新成果和新突破,人工智能作爲新生產力的浪潮已經滾滾而來。



Scroll to Top