6月24日,2023年度國家科學(xué)技術(shù)獎(jiǎng)在京揭曉,共評選出250個(gè)項(xiàng)目。記者注意到,在本次國家科學(xué)技術(shù)獎(jiǎng)各獲獎(jiǎng)項(xiàng)目中,與人工智能、大模型技術(shù)相關(guān)聯(lián)的項(xiàng)目明顯增加,涉及多語種智能語音、智能車聯(lián)網(wǎng)、智慧高速、超級計(jì)算等應(yīng)用場景。其中,“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目獲2023年度國家科技進(jìn)步獎(jiǎng)一等獎(jiǎng),也是過去十年來人工智能領(lǐng)域的首個(gè)國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
自深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來,語音交互、自然語言、機(jī)器視覺等基礎(chǔ)技術(shù)獲得大發(fā)展。在諸多技術(shù)中,多語種智能語音技術(shù)對于支撐人機(jī)交互、人類語言互通及國家安全等需求具有重大戰(zhàn)略意義,但也面臨著如何突破復(fù)雜場景“雞尾酒會”效應(yīng)典型難題,以及如何基于自主可控的平臺、實(shí)現(xiàn)國產(chǎn)軟硬件的語音產(chǎn)業(yè)鏈自主可控等問題。
據(jù)介紹,在“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目中,實(shí)現(xiàn)了四大關(guān)鍵技術(shù)突破。項(xiàng)目中,科大訊飛聯(lián)合中國科學(xué)技術(shù)大學(xué)、清華大學(xué)、華為等高校及企業(yè)通過多通道語音信號時(shí)空分離建模方法和多維度語音屬性解耦表征方法,實(shí)現(xiàn)語音信號中內(nèi)容、噪聲等高度耦合的多維屬性特征解耦,提升復(fù)雜場景下語音識別準(zhǔn)確率。
同時(shí),基于多語種通用音素體系和基本語言單元,構(gòu)建了多語種統(tǒng)一音素韻律體系,提升了小語種語音系統(tǒng)性能。
此外,以語音語義互增強(qiáng)的魯棒口語理解技術(shù),和多源知識增強(qiáng)的可信文本生成技術(shù),提升了復(fù)雜場景和深層次的語義理解準(zhǔn)確率。
“這個(gè)項(xiàng)目突破了復(fù)雜場景語音技術(shù)大規(guī)模使用門檻,實(shí)現(xiàn)了語音技術(shù)從中英文到多語種的拓展。”項(xiàng)目相關(guān)負(fù)責(zé)人透露,這一技術(shù)成果不僅可應(yīng)用于會議場合,還首次實(shí)現(xiàn)智能語音在國產(chǎn)芯片上的訓(xùn)練和推理性能,也在中國品牌“走出去”中發(fā)揮了關(guān)鍵推動作用。
據(jù)了解,項(xiàng)目提出了硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),解決了智能語音技術(shù)硬件平臺的“卡脖子”問題。
目前,該技術(shù)已支持了華為等主流手機(jī)廠商和奇瑞、比亞迪、長安等主機(jī)廠,出海產(chǎn)品多語種問題,并在智能軟硬件方面開創(chuàng)了翻譯機(jī)、辦公本、智能錄音筆等智能硬件新品類。
“通用人工智能時(shí)代,多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新可以和大模型技術(shù)相互補(bǔ)充、促進(jìn)。”專家表示,大模型技術(shù)可以在復(fù)雜語義理解、長文本建模能力上進(jìn)一步提升語音識別、合成和翻譯的效果,同時(shí)基于其強(qiáng)大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價(jià)值,支撐實(shí)現(xiàn)語音同傳、自動客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機(jī)器人、服務(wù)機(jī)器人等等未來智能產(chǎn)品創(chuàng)新。