六道題每題可得7分,總分最高42分。谷歌DeepMind的人工智能系統(tǒng)在今年國際數(shù)學(xué)奧林匹克競賽中最終得分28分。今年金牌的門檻是29分,在正式比賽的609名選手中,58名達(dá)到了這一門檻。
DeepMind人工智能系統(tǒng)在IMO 2024上相對于人類競爭者的表現(xiàn)。在42分的總分中,人工智能系統(tǒng)獲得了28分。
谷歌DeepMind的AI模型解決了今年國際數(shù)學(xué)奧林匹克競賽(IMO)六個問題中的四個問題,人工智能首次達(dá)到了銀牌標(biāo)準(zhǔn)。
當(dāng)?shù)貢r間7月25日,谷歌DeepMind公布專用于數(shù)學(xué)推理的模型AlphaProof,以及專注于幾何的模型更新版本AlphaGeometry 2。DeepMind表示,AlphaProof和AlphaGeometry 2解決了數(shù)學(xué)中的高級推理問題,具有先進數(shù)學(xué)推理能力的通用人工智能或開啟科學(xué)和技術(shù)的新領(lǐng)域。
IMO是歷史最悠久、規(guī)模最大、最負(fù)盛名的青年數(shù)學(xué)家競賽,自1959年以來每年舉辦一次。選手要解決代數(shù)、組合學(xué)、幾何和數(shù)論方面六個異常困難的問題。菲爾茲獎是數(shù)學(xué)家的最高榮譽之一,菲爾茲獎獲得者也會代表他們的國家參加IMO。
近年來,IMO競賽被認(rèn)為是機器學(xué)習(xí)領(lǐng)域的重大挑戰(zhàn),也是衡量人工智能系統(tǒng)高級數(shù)學(xué)推理能力的理想基準(zhǔn)。
谷歌DeepMind表示,IMO的數(shù)學(xué)問題被人工翻譯成數(shù)學(xué)語言,供系統(tǒng)理解。在正式比賽中,學(xué)生們分兩次提交答案,每次4.5小時。而人工智能系統(tǒng)在幾分鐘內(nèi)解決了一個問題,花了三天時間來解決其他問題。基于強化學(xué)習(xí)的推理系統(tǒng)AlphaProof解決了兩個代數(shù)問題和一個數(shù)論問題并被證明答案正確,這些問題包括今年IMO比賽中只有5名選手解決的最難的問題。AlphaGeometry 2證明了幾何問題,但兩個組合問題仍未解決。
六道題每題可得7分,總分最高可達(dá)42分。DeepMind的人工智能系統(tǒng)最終得分28分。DeepMind表示,今年金牌的門檻從29分開始,在正式比賽的609名選手中,有58名達(dá)到了這個門檻。
“事實上,這個程序能想出這樣一個不明顯的結(jié)構(gòu)是非常令人印象深刻的,遠(yuǎn)遠(yuǎn)超出了我認(rèn)為的最先進的水平。”IMO金牌得主和菲爾茲獎牌得主蒂莫西·高爾斯(Timothy Gowers)表示。
在大量書面文本上訓(xùn)練的人工智能模型歷來在數(shù)學(xué)推理方面很困難,往往傾向于語言智能而非數(shù)學(xué)智能,解決數(shù)學(xué)問題需要更復(fù)雜的推理技能。AlphaProof將預(yù)先訓(xùn)練好的語言模型與AlphaZero強化學(xué)習(xí)算法結(jié)合在一起,AlphaZero此前自學(xué)了如何掌握國際象棋、將棋和圍棋。
大語言模型容易產(chǎn)生幻覺,或以令人信服的方式傳遞錯誤信息。DeepMind表示,盡管基于自然語言的方法可以訪問更多數(shù)據(jù),但會產(chǎn)生看似合理但不正確的中間推理步驟和解決方案。而形式語言提供了一個重要優(yōu)勢,即涉及數(shù)學(xué)推理的證明可以被形式化地驗證其正確性。“我們通過微調(diào)Gemini模型,在這兩個互補的領(lǐng)域之間建立了一座橋梁,自動將自然語言問題語句轉(zhuǎn)換為形式語句,創(chuàng)建了一個不同難度的龐大形式問題庫。”
當(dāng)遇到一個數(shù)學(xué)問題時,AlphaProof會生成候選解決方案,然后搜索可能的證明步驟來證明或反駁它們。每一個被發(fā)現(xiàn)和驗證的證明都被用來強化AlphaProof的語言模型,增強其解決后續(xù)更具挑戰(zhàn)性問題的能力。