導讀

一道小學生的數學題竟然難倒了全球AI大模型，只有4個大模型給出了正確答案！這究竟是怎么一回事？快來看看！

全球AI大模型被一道小學生數學題難倒

日前，一道來自小學生的數學題卻難倒了不少海內外AI大模型，這道題的內容是“9.11和9.9哪個更大”，而僅有4個大模型給出了正確答案。

大模型的數學能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大進步空間，而此前筆者在采訪12位大模型時也得出了一個驚人的結論，這些大模型中僅有4個回答是正確的，而其他8個大模型卻都給出了錯誤的答案。

而針對大模型的數學能力，筆者曾進行過深入的采訪，大部分行業人士認為大模型數學能力差的根本原因還是出在分詞上，即Tokenizer(分詞器)在處理數字時會出現問題，導致模型難以正確理解和計算。

而這道9.11和9.9的大小比較題，12個大模型中，只有阿里通義千問、百度文心一言、Minimax和騰訊元寶答對，其他8個大模型都認為9.11比9.9更大。

雖然最終4個大模型給出了正確答案，但這并不能掩飾大模型數學能力的薄弱，畢竟面對簡單的大小比較題，8個大模型都給出了錯誤答案。

而對于未來大模型的發展方向，筆者也咨詢了不少專家學者以及從業者，針對此前大模型的回答，不少人表示“并不意外”。

一些專家認為，未來在模型的訓練數據上會越來越依賴構造型的數據，而不是直接爬取下來的數據，以提升模型的復雜推理能力。

因為直接爬取下來的數據中會夾雜大量的錯誤數據，這些錯誤數據會誤導模型，導致模型做出錯誤的判斷。

而構造型的數據則可以事先篩選，保證數據的準確性和可靠性，從而培養模型健康的思維方式。