6月18日消息,今日凌晨,谷歌DeepMind發(fā)布了一個(gè)名為V2A(Video-to-Audio)的系統(tǒng),能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。它還可以為任何視頻輸入生成無限數(shù)量的音軌。
谷歌DeepMindV2A系統(tǒng)最大的特點(diǎn)就是無需人工輸入提示詞也可以為視頻配音。DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素。也就是說,V2A能看懂畫面,知道畫面里正在發(fā)生什么