剛剛結(jié)束的 2024 世界人工智能大會(huì)論壇期間,國(guó)內(nèi)外院士、專家學(xué)者齊聚「超越邊界:探索下一代大模型的基礎(chǔ)研究」論壇,共同探討「AI for Science 基礎(chǔ)設(shè)施建設(shè)」和「下一代通用人工智能方法」兩大前沿技術(shù)話題。
論壇不僅邀請(qǐng)到多位國(guó)內(nèi)外院士,業(yè)內(nèi)專家學(xué)者出席會(huì)議研討交流,還同期發(fā)布了 4 個(gè)重磅成果及產(chǎn)品。
中國(guó)科學(xué)院院士鄂維南在大會(huì)引言中稱:「AI for Science 在材料、生命科學(xué)、能源化工等領(lǐng)域落地成果的不斷涌現(xiàn),讓我們看到其帶來(lái)的巨大前景。但 AI for Science 帶來(lái)的不僅僅是點(diǎn)狀的突破,而是系統(tǒng)性地帶動(dòng)科學(xué)研究基礎(chǔ)設(shè)施的建設(shè),推進(jìn)邁向「平臺(tái)科研」時(shí)代。」
鄂院士提到,「回顧科學(xué)研究的基本資源和基本方法,無(wú)論哪個(gè)科研方向,都少不了基本原理、實(shí)驗(yàn)、文獻(xiàn)、算力的支撐。因此,構(gòu)建科學(xué)研究的通用基礎(chǔ)平臺(tái),即基本原理和數(shù)據(jù)驅(qū)動(dòng)的模型算法與軟件、替代文獻(xiàn)的數(shù)據(jù)庫(kù)與知識(shí)庫(kù)、高效率、高精度的實(shí)驗(yàn)表征方法、高度整合的算力平臺(tái),可以推動(dòng)共性問(wèn)題的解決。AI 方法大大提升了我們的科研能力,但是離真正解決問(wèn)題還有距離,隨之而來(lái)的問(wèn)題是,這剩下的『最后一公里』該如何打通。
雖然目前人工智能算法、大模型已經(jīng)取得了突出的進(jìn)步,但要實(shí)現(xiàn)下一代通用人工智能,仍需要在算力資源、數(shù)據(jù)資源、AI 數(shù)據(jù)庫(kù)能力、下一代模型和人才資源等方面持續(xù)發(fā)力。人工智能依然有很多細(xì)分領(lǐng)域未被探索,需與場(chǎng)景結(jié)合,從應(yīng)用到底層技術(shù)進(jìn)行創(chuàng)新。
我們欣喜地看到,業(yè)內(nèi)已經(jīng)有產(chǎn)品化與平臺(tái)化的成果產(chǎn)出,本論壇發(fā)布的四個(gè)產(chǎn)品就是這一趨勢(shì)的實(shí)踐案例。
OpenLAM 大原子模型
OpenLAM 是「平臺(tái)科研」與「開源共建」的一個(gè)典型代表。「語(yǔ)言數(shù)據(jù)的爆炸性增長(zhǎng)孕育了大語(yǔ)言模型,同樣地,微觀尺度數(shù)據(jù)的累積也催生了一種創(chuàng)新的模型——大原子模型。」
北京科學(xué)智能研究院院長(zhǎng)、深勢(shì)科技創(chuàng)始人張林峰表示「這一模型的誕生,將帶來(lái)仿真設(shè)計(jì)在時(shí)空尺度與覆蓋范圍的量級(jí)式提升,實(shí)驗(yàn)表征信號(hào)將能被更好地解析,它將成為原子級(jí)生產(chǎn)制造的重要組成部分。」
OpenLAM 計(jì)劃已于 2023 年底正式發(fā)起,北京科學(xué)智能研究院協(xié)同 DeepModeling 開源社區(qū)以及 30 多家共建單位,并邀請(qǐng)了原子級(jí)建模、表征、制造以及 AI 產(chǎn)業(yè)的多位院士、專家組成顧問(wèn)團(tuán),共同推動(dòng)構(gòu)建大原子模型的「社區(qū)模式」。秉承「廣泛覆蓋、謹(jǐn)慎評(píng)估、開源開放、開箱即用」的開發(fā)理念,本論壇上最新發(fā)布了在合金、動(dòng)態(tài)催化、分子反應(yīng)、藥物小分子、固態(tài)電池、半導(dǎo)體、高溫超導(dǎo) 7 個(gè)領(lǐng)域模型解決方案,這些模型均以開放社區(qū)的形式發(fā)展而來(lái),并在科學(xué)智能廣場(chǎng)可下載。「實(shí)驗(yàn)科學(xué)家的語(yǔ)言和視角還未與 AI 技術(shù)和數(shù)據(jù)庫(kù)形成有效的連接,為此我們開發(fā)了『晶體造句』APP,希望更多實(shí)驗(yàn)科學(xué)家通過(guò)這個(gè) APP 的窗口,來(lái)發(fā)現(xiàn)并合成更多人們尚未充分探索的材料。」
![AI 為什么是下一代科研的基礎(chǔ)設(shè)施?](http://www.1jiwang.com/uploads/image/2024/0711/1A20241V0.jpg)
Science Navigator 1.0: 新一代科研文獻(xiàn)開放平臺(tái)
AI for Science 的各項(xiàng)基礎(chǔ)設(shè)施正在全面落地建設(shè),不僅僅是 OpenLAM,本次論壇還同期發(fā)布了 AI for Science 的另一重要基礎(chǔ)設(shè)施,替代文獻(xiàn)的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)的優(yōu)秀實(shí)踐產(chǎn)品——Science Navigator 1.0。
當(dāng)前,對(duì)學(xué)科交叉檢索、原文內(nèi)容溯源、科研數(shù)據(jù)解讀的需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)文獻(xiàn)檢索工具的能力范圍,新一代科研文獻(xiàn)開放平臺(tái) Science Navigator 應(yīng)運(yùn)而生。「Science Navigator 強(qiáng)大的自然語(yǔ)言對(duì)話式檢索能力,能夠迅速定位到科研工作者所需的信息,且回答可溯源到文獻(xiàn)原文。」北京科學(xué)智能研究院副院長(zhǎng)李鑫宇介紹道,「AI 向量數(shù)據(jù)庫(kù)疊加大語(yǔ)言模型讓訓(xùn)練和推理成本大幅降低,等效實(shí)現(xiàn) 3-6 倍參數(shù)量模型效果。Science Navigator 1.0 不僅僅是一個(gè)為科研工作者量身打造的 AI 平臺(tái),它更是一個(gè)全新的科研生態(tài)系統(tǒng)。Science Navigator 開放了絕大部分能力的 API 接口,使用者可以在這個(gè)平臺(tái)的基礎(chǔ)上構(gòu)建自己的應(yīng)用和智能體,以滿足科研復(fù)雜的個(gè)性需求,釋放更多的時(shí)間精力在解決關(guān)鍵問(wèn)題與創(chuàng)新思考上。」
![AI 為什么是下一代科研的基礎(chǔ)設(shè)施?](http://www.1jiwang.com/uploads/image/2024/0711/1A20243561.jpg)
憶³大模型
那么下一代通用人工智能模型是什么樣的?論壇上的專家們也給出了各自的見解。其中之一是類比人腦記憶與思考方式的記憶分層大模型。目前記憶分層的大模型已經(jīng)在上海算法創(chuàng)新研究院實(shí)現(xiàn)。
會(huì)上,上海算法創(chuàng)新研究院大模型中心負(fù)責(zé)人熊飛宇發(fā)布了最新科研成果——憶³大模型(Memory³),該模型創(chuàng)新地引入了顯性記憶機(jī)制,顯著提高了性能并降低了訓(xùn)練與推理成本。憶³在傳統(tǒng)的模型參數(shù)(隱性記憶)與上下文鍵值(工作記憶)之外,增加了第三種形式的記憶——顯性記憶。模型無(wú)需訓(xùn)練即可將文本轉(zhuǎn)換為顯性記憶,并在推理時(shí)快速且稀疏地使用記憶。通過(guò)外部化模型存儲(chǔ)的知識(shí),顯性記憶減輕了模型參數(shù)的負(fù)擔(dān),進(jìn)而提高了模型的參數(shù)效率與訓(xùn)練效率,使基準(zhǔn)測(cè)試上憶³能夠?qū)崿F(xiàn)約 3 倍參數(shù)量模型的性能。
基于憶³架構(gòu)的 AI 搜索引擎,利用顯性記憶的快速讀寫,使回答的時(shí)效性更強(qiáng),準(zhǔn)確率更高,內(nèi)容更完整,還能夠根據(jù)用戶的反饋實(shí)時(shí)更新和優(yōu)化答案。隱性記憶使搜索引擎能夠理解復(fù)雜的上下文關(guān)系,提供更精準(zhǔn)和個(gè)性化的搜索結(jié)果。基于憶³的特性,這款 AI 搜索引擎不僅提高了用戶的搜索體驗(yàn),還在信息檢索領(lǐng)域樹立了新的標(biāo)桿。此外,憶³已在金融、媒體等行業(yè)落地應(yīng)用。
![AI 為什么是下一代科研的基礎(chǔ)設(shè)施?](http://www.1jiwang.com/uploads/image/2024/0711/1A20223642.jpg)
MyScale AI 數(shù)據(jù)庫(kù)
隨著以深度學(xué)習(xí)、大模型為代表的 AI 技術(shù)迅速發(fā)展,圖像、視頻、文本、語(yǔ)音等的非結(jié)構(gòu)化數(shù)據(jù)處理的需求和能力也有了爆發(fā)式的增長(zhǎng)。
高維向量是非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一語(yǔ)義表征,但主流的向量數(shù)據(jù)庫(kù)存在通用數(shù)據(jù)管理能力不足,面對(duì)海量數(shù)據(jù)時(shí)性能、可擴(kuò)展性不佳的問(wèn)題,難以應(yīng)對(duì)大規(guī)模復(fù)雜 AI 應(yīng)用的需求,而 MyScale 的初衷就是克服這些問(wèn)題并成為 AI 時(shí)代的數(shù)據(jù)底座。
墨奇科技聯(lián)合創(chuàng)始人/CTO 湯林鵬介紹道,「MyScale 是國(guó)際上首個(gè)專為大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理設(shè)計(jì)的 AI 數(shù)據(jù)庫(kù),支持海量結(jié)構(gòu)化、向量、文本等各類異構(gòu)數(shù)據(jù)的高效存儲(chǔ)和聯(lián)合查詢,綜合性能比國(guó)內(nèi)外其他產(chǎn)品提高 4-10 倍。在實(shí)際生產(chǎn)中,MyScale AI 數(shù)據(jù)庫(kù)成功扮演了大模型+大數(shù)據(jù)雙輪驅(qū)動(dòng)下的統(tǒng)一 AI 數(shù)據(jù)底座。在金融文檔分析、科研文獻(xiàn)智能問(wèn)答分析、企業(yè)私域知識(shí)管理、工業(yè)/制造業(yè)智能化、零售行業(yè)客戶服務(wù)、人力資源行業(yè)智能化、法律行業(yè)智能化等應(yīng)用場(chǎng)景中均幫助客戶創(chuàng)造了巨大價(jià)值,加速了大模型和場(chǎng)景數(shù)據(jù)結(jié)合的技術(shù)創(chuàng)新和應(yīng)用落地。」
![AI 為什么是下一代科研的基礎(chǔ)設(shè)施?](http://www.1jiwang.com/uploads/image/2024/0711/1A2022C43.jpg)
未來(lái),從現(xiàn)在出發(fā)。在不斷探索人工智能邊界的道路上,培植下一代通用人工智能方法、完善 AI for Science 的基礎(chǔ)設(shè)施極為關(guān)鍵,它將推動(dòng)科技向前發(fā)展,解鎖以前難以想象的創(chuàng)新可能性。