洋彼岸,Sora的到來,似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實的規則,并在此基礎上生成“世界”。
如果說從前還是一道銅墻鐵壁,那么現在,虛擬與真實可能僅一線之隔。大家都不想做創建虛構的玩具,而是想成為生成世界的“造夢機”。Sora之后,它的挑戰者們前赴后繼。
6月,視頻生成大模型迎來又一輪新品爆發,生成式AI賽道像是“過年了”。快手可靈、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現象級爆款不斷涌現。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對標Sora。
《每日經濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對其文生視頻的能力進行測試,同時從動態、視效、細節、場景等多維度表現進行結果比對和關聯。
每經記者從五大場景全面評測Sora和快手可靈
測試和觀察后發現,雖然在部分維度Sora仍然領先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產視頻生成大模型已經上升到了一個新的高度。
國金證券互聯網傳媒首席分析師陳澤敏在接受記者采訪時表示,拋開技術,快手“可靈”已經實現一部分絕對真實世界觀的數據支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
可靈,靈嗎?
Sora之后,國內視頻生成大模型不斷推出。
3月底,字節旗下Dreamina(即夢)內測視頻生成功能;4月底,生數科技首個文生視頻模型Vidu發布;5月,騰訊也開源了DiT架構的混元文生圖模型。
今年以來,快手先后發布1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。圖生視頻功能后續開放。
《每日經濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)測試可靈。同時比對生成視頻進行效果測試,從“畫面呈現”“功能與體驗”兩大維度下的多個具體表現進行總結。
在畫面呈現上:
1、動態效果。可靈的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環境進行環視,重點突出。可靈的鏡頭前后推進,小島被設置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。
2、視覺效果。這一項上,Sora和可靈表現都較為優秀。特別是在“東京街頭的女士”視頻畫面呈現上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現,兩個模型的畫面光影表達都很準確。
3、細節表現。記者重點關注到二者對人的五官的呈現。Sora的刻畫更細致,特別是人在動態場景下,五官沒有變形,幾乎是相對靜態的。可靈在動態場景下,人的五官有所變形,會隨著畫面鏡頭的推進、人的動作而扭曲。
但在“3D動畫的小怪物”生成上,可靈的細節表現與Sora差別不大,特別是對小怪物蓬松毛發特性的捕捉和呈現上,很精準也很細致。