微軟團(tuán)隊(duì)在辦公領(lǐng)域有著很強(qiáng)的“AI霸者”的野心。
近日,微軟最新公布的研究論文,正在計(jì)劃為 Excel、谷歌 Sheets 等電子表格應(yīng)用程序,開發(fā)全新的 AI 大語言模型--SpreadsheetLLM。
研究人員表示現(xiàn)有電子表格應(yīng)用程序具備豐富的功能,在布局和格式方面為用戶提供大量的選項(xiàng),因此傳統(tǒng) AI 大語言模型很難勝任電子表格處理場景。
而 SpreadsheetLLM 就是專門為電子表格應(yīng)用而設(shè)計(jì)的 AI 模型,微軟還研發(fā)了 SheetCompressor(壓縮電子表格),讓 SpreadsheetLLM 能夠更好地理解、處理電子表格數(shù)據(jù)。
論文摘要部分,SpreadsheetLLM 模型主要由 3 個(gè)模塊組成:基于結(jié)構(gòu)錨的壓縮、反向索引轉(zhuǎn)換和數(shù)據(jù)格式感知聚合。
SpreadsheetLLM 大大提高了電子表格表檢測任務(wù)的性能,在 GPT4 的情境學(xué)習(xí)設(shè)置中,比普通方法高出 25.6%;使用詞元(token)的成本降低了 96%,并能提供更好的處理結(jié)果。
論文指出,這種電子表格LLM框架,顯著提高了LLM解釋和利用電子表格的方式。但還有很多改進(jìn)的空間,比如這種方法沒有利用電子表格格式的細(xì)節(jié),如背景顏色和邊框,因?yàn)樗鼈冃枰嗟臉?biāo)記(這些元素通常包含有價(jià)值的上下文和視覺線索,可以進(jìn)一步深化模型對(duì)電子表格數(shù)據(jù)的理解和處理)。
此外,雖然SheetCompressor有效地聚合了數(shù)據(jù)區(qū)域,但它目前沒有對(duì)包含自然語言的單元格采用復(fù)雜的基于語義的壓縮方法。例如,將“中國”、“美國”和“法國”等術(shù)語歸入“國家”等統(tǒng)一標(biāo)簽下,不僅可以提高壓縮比,還可以加深LLM對(duì)數(shù)據(jù)的語義理解。探索這些先進(jìn)的語義壓縮技術(shù)將是我們持續(xù)努力增強(qiáng)SpreadsheetLLM功能的一個(gè)關(guān)鍵重點(diǎn)。
目前還沒有關(guān)于微軟計(jì)劃何時(shí)或是否向公眾提供 SpreadsheetLLM 的消息