導讀
一道小學生的數學題竟然難倒了全球AI大模型,只有4個大模型給出了正確答案!這究竟是怎么一回事?快來看看!
全球AI大模型被一道小學生數學題難倒
日前,一道來自小學生的數學題卻難倒了不少海內外AI大模型,這道題的內容是“9.11和9.9哪個更大”,而僅有4個大模型給出了正確答案。
挑戰大模型的數學推理能力
大模型的數學能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大進步空間,而此前筆者在采訪12位大模型時也得出了一個驚人的結論,這些大模型中僅有4個回答是正確的,而其他8個大模型卻都給出了錯誤的答案。
數字切分問題與模型的理解能力
而針對大模型的數學能力,筆者曾進行過深入的采訪,大部分行業人士認為大模型數學能力差的根本原因還是出在分詞上,即Tokenizer(分詞器)在處理數字時會出現問題,導致模型難以正確理解和計算。
正確答案揭曉與未來的發展方向
而這道9.11和9.9的大小比較題,12個大模型中,只有阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,其他8個大模型都認為9.11比9.9更大。
雖然最終4個大模型給出了正確答案,但這并不能掩飾大模型數學能力的薄弱,畢竟面對簡單的大小比較題,8個大模型都給出了錯誤答案。
而對于未來大模型的發展方向,筆者也咨詢了不少專家學者以及從業者,針對此前大模型的回答,不少人表示“并不意外”。
一些專家認為,未來在模型的訓練數據上會越來越依賴構造型的數據,而不是直接爬取下來的數據,以提升模型的復雜推理能力。
因為直接爬取下來的數據中會夾雜大量的錯誤數據,這些錯誤數據會誤導模型,導致模型做出錯誤的判斷。
而構造型的數據則可以事先篩選,保證數據的準確性和可靠性,從而培養模型健康的思維方式。