2024 年 5 月 7 日,《The Information》報道,微軟正在開發(fā)一個擁有大約 5000 億個參數(shù)的大語言模型(LLM)。
這標志著微軟自從往 OpenAI 投資逾 100 億美元,以便可以重復使用這家初創(chuàng)公司的 AI 模型以來,首次自行開發(fā)這等規(guī)模的 AI 模型。
該 LLM 在微軟內部被稱為 MAI-1,預計最早將于本月首次亮相。
OpenAI 在 2020 年年中推出 GPT-3 時,詳細說明該模型的初始版本有 1750 億個參數(shù)。該公司透露,GPT-4 更龐大,擁有更多的參數(shù),但尚未透露具體數(shù)字。
一些報道顯示,OpenAI 的旗艦 LLM 擁有 1.76 萬億個參數(shù),而谷歌的 Gemini Ultra 據(jù)稱擁有 1.6 萬億個參數(shù),性能與 GPT-4 旗鼓相當。
微軟的 MAI-1 擁有 5000 億個參數(shù),這表明它可能被定位為介于 GPT-3 和 GPT-4 之間的某種中檔模型。這樣的配置將允許模型提供高響應準確度,但耗用的功率比 OpenAI 的旗艦 LLM 低得多。言外之意,這將為微軟帶來更低的推理成本。
開發(fā) MAI-1 的工作由 LLM 開發(fā)商 Inflection AI Inc.的創(chuàng)始人 Mustafa Suleyman 監(jiān)管。
Mustafa Suleyman
今年 3 月,通過一筆價值 6.25 億美元的交易,Suleyman 和這家初創(chuàng)公司的大多數(shù)員工一起加入了微軟。這位高管早些時候與他人共同創(chuàng)立了谷歌的DeepMind AI 研究部門。
微軟可能使用 Inflection AI 的訓練數(shù)據(jù)及另外某些資產(chǎn)來驅動 MAI-1。
據(jù)稱,該模型的訓練數(shù)據(jù)集還包含多種類型的信息,包括 GPT-4 和互聯(lián)網(wǎng)內容生成的文本。
為《The Information》提供信源的知情人士表示,微軟尚未決定它將如何使用 MAI-1。如果這個模型確實擁有 5000 億個參數(shù),那么它太過復雜了,無法在消費級設備上運行。這意味著微軟很可能會將 MAI-1 部署在其數(shù)據(jù)中心,那樣 LLM 可以集成到必應和 Azure 之類的服務中。
據(jù)信,微軟可能會在 5 月 16 日召開的 Build 開發(fā)者大會上展示MAI-1,如果到時候該模型的表現(xiàn)足夠令人滿意的話。這暗示該公司預計會在幾周內推出該模型的工作原型(如果目前還沒有工作原型的話)。
就在不到兩周前,微軟剛剛開源了一種名為 Pi-3 Mini 的語言模型。據(jù)微軟聲稱,這種模型僅擁有 38 億個參數(shù),但性能卻比參數(shù)多 10 倍的 LLM 更勝一籌。Pi-3 是一個 AI 系列的一部分,該系列還包括另外兩個更龐大的、性能略勝一籌的神經(jīng)網(wǎng)絡。
開發(fā) MAI-1表明微軟內部對 AI采取了雙管齊下的做法,既關注面向移動設備的本地運行的小型語言模型,也關注由云支持的大型先進模型。據(jù)報道,蘋果也在探索類似的做法。這也凸顯了微軟不依賴OpenAI 探索 AI 開發(fā)的意愿,OpenAI的技術目前支持微軟最雄心勃勃的生成式 AI 功能,包括嵌入到 Windows 中的聊天機器人。