寧 9月24日下午,字節跳動旗下火山引擎發布了兩款AI視頻模型,這意味著字節跳動正式加入了AI視頻大戰。
AI視頻是當下互聯網大廠和創業公司集體發力的領域。8月底,AI創業公司MiniMax推出視頻模型。9月19日,阿里巴巴也發布了通義萬相視頻模型。據經濟觀察網不完全統計,僅在國內,過去4個月時間便有超過10家公司推出了AI視頻產品。
相較其他公司,字節跳動的視頻模型發布時間較晚。火山引擎總裁譚待接受經濟觀察網在內媒體采訪時說,字節跳動不一定非要搶第一,他們對模型的認知是,這是一個能影響未來10年、20年的長遠技術,所以希望推出的模型質量是經過考驗的。
字節為何入局
時至9月,AI視頻模型已經不再罕見,甚至成了AI創業公司必選的賽道。為什么這些公司如此重視AI視頻?譚待說,視頻的消費在當下已經成為主流,無論是娛樂、電商還是本地生活,各行各業都離不開視頻,這意味著視頻是用戶的核心需求。
此前MiniMax創始人閆俊杰接受經濟觀察網采訪時也有類似觀點。他說,為了讓產品能有非常高的用戶覆蓋度和非常深的用戶使用度,唯一的辦法就是輸出動態的視頻內容,而不是僅輸出基于文字的文本內容。
相比其他公司,擁有抖音和剪映的字節跳動在視頻領域具有優勢,其主要優勢在于視頻內容積累。一位AI視頻創業公司創始人告訴經濟觀察網,他們訓練視頻的數據主要是海外開源數據、AI合成數據,以及向版權方購買的數據。
譚待提到,抖音和剪映在視頻領域的業務理解和技術積累,對于豆包視頻模型是一個很大的加分項。同時,由于豆包是全體系的模型,目前包括文本、音樂、視頻、圖片等多個模態,因此能更好地理解用戶的指令。
他認為,豆包視頻模型與其他視頻模型的不同之處在于,它可以生成多個主體運動的復雜交互畫面,也可以保證多鏡頭切換的內容一致性,這兩項能力能讓AI視頻看起來不那么像PPT版視頻。
AI視頻仍不盡如人意
雖然入局者眾多,但從AI視頻的效果和AI視頻制作簡易度來看,這個行業目前發展并不算快。
北京國際電影節上有一個獲獎的2分鐘AI視頻,主創團隊提到,他們3個人花了十幾天時間做這個視頻。當前創作者制作AI視頻,都要經過一個較為復雜的流程,先寫文字腳本,再把腳本拆分為多個場景,為每個場景寫像咒語一樣的提示詞,讓每個場景生成多張圖,一般每張圖需要生成幾十次,才能得到自己想要的結果。
一位創作者說:“做AI視頻就像玩抽卡游戲,嘗試幾百次才能試出好結果。”
主流的AI視頻工具,一次能生成4—10秒左右的視頻片段。生成一段2分鐘的完整故事,需要使用多段視頻拼接。但在當前算力條件下,創作者往往需要排隊超過10分鐘,才能使用AI視頻工具。除了專業創作者,沒有人有耐心制作AI視頻。
AI視頻當下并不是一個大市場。頭豹研究院的數據顯示,預計到2026年,中國AI視頻市場規模將增長至92.79億元。
上述AI視頻創業公司創始人說,目前AI視頻行業處于極早期,現在仍在新手保護期的階段,用戶對產品性能有很高的容忍度。最終哪家公司能跑到最后,還要看它的產品能力能不能獲得用戶認可。在這個維度上,互聯網大廠和AI創業公司都處于同一起跑線。