這是團隊在Open-Sora上,使用5個4s(192幀)480p分辨率視頻進行的測試。
新方法名為Pyramid Attention Broadcast(PAB),由新加坡國立大學尤洋以及3位學生推出。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/164201N450.png)
具體來說,PAB通過減少冗余注意力計算,可實現高達21.6FPS和10.6倍加速,并且不會犧牲基于DiT的流行視頻生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的質量。
作為一種免訓練方法,PAB可為將來任何基于DiT的視頻生成模型提供實時功能。
看完效果對比,網友們紛紛驚嘆:
這將是新紀元。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/1642021F01.png)
也引來了眾多專業人士的轉發和點評,如MIT博士Yilun Du表示:
是一個展示了如何將視頻生成加速到實時速度的酷炫工作!可能會為視頻策略和模擬的現實世界用例開辟新的領域。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/164202G542.jpg)
那么,新方法具體如何破解實時生成視頻這個難題的呢?
減少冗余注意力計算
一開始,團隊比較了當前擴散步驟與前一步驟的注意力輸出差異。
這些差異通過均方誤差(MSE)進行量化,并對每個擴散步驟的所有層進行平均。
團隊捕捉到兩個關鍵信息:
- 隨著時間推移,注意力差異遵循U形模式,中間70%差異較小
- 注意力差異的排序為:空間>時間>交叉
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/164202IZ3.png)
具體而言,不同時間步驟的注意力差異呈現出U形模式,在第一步和最后一步的15%步驟中發生顯著變化,而中間70%的步驟非常穩定,差異很小。
其次,在穩定的中間部分,不同類型的注意力表現出差異:空間注意力變化最大,涉及高頻元素,如邊緣和紋理;時間注意力顯示出與視頻中的運動和動態相關的中頻變化;跨模態注意力最為穩定,它將文本與視頻內容聯系起來,類似于反映文本語義的低頻信號。
對此,團隊正式提出用PAB來減少不必要的注意力計算。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/16420461c4.png)
PAB通過根據每種注意力的差異將注意力輸出到不同的后續步驟,從而節省計算量。
舉個例子,就像廣播電臺把一個信號發送給多個聽眾一樣,如果某個步驟的注意力結果在接下來的幾個步驟中仍然適用,就不需要重新計算,而是直接使用之前的結果。
團隊發現,即使沒有后期訓練,這種簡單策略也能實現高達35%的加速,并且質量損失可以忽略不計。
為了進一步增強PAB,團隊基于動態序列并行(DSP)改進了序列并行。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/16420462535.png)
序列并行通過在多個GPU上分割視頻以降低延遲,但DSP帶來的時間注意力需兩次全對全通信,導致高通信開銷。
而PAB由于時間注意力不再需要被計算,使這些通信開銷減少了50%以上,從而優化了實時視頻生成的分布式推理效率。
借助并行功能,PAB可實現高達21.6FPS和10.6倍加速,并且不會犧牲基于DiT的流行視頻生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的質量。
![AI首次實時生成視頻!尤洋團隊新作,網友:這是新紀元](http://www.1jiwang.com/uploads/image/2024/0629/16420563086.jpg)