Gemini貫穿一切。
這是「甲子光年」在看完2024年Google I/O開(kāi)發(fā)者大會(huì)的最大感受。
5月14日,谷歌2024年I/O開(kāi)發(fā)者大會(huì)如期在加州山景城拉開(kāi)帷幕。今年的主題完全圍繞人工智能展開(kāi),特別是生成式人工智能和其在各類(lèi)應(yīng)用中的實(shí)際應(yīng)用,如 Workspace和Gmail的整合與優(yōu)化。
首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在演講中一共說(shuō)了121次“AI”,并喊出了一句嘹亮的口號(hào)——“整合全球信息,惠及所有民眾”。
現(xiàn)場(chǎng),谷歌發(fā)布了Gemini系列的最新AI模型:Gemini 1.5 Flash。
同時(shí),谷歌也宣布了Gemini 1.5 Pro升級(jí),全面支持Workspace,同時(shí)向全球開(kāi)發(fā)者開(kāi)放。Google Workspace辦公套件也宣布將進(jìn)一步整合Gemini,推出基于Gemini 1.5 Pro的多種技能,如可總結(jié)郵件內(nèi)容。Gmail也將深度整合Gemini,匯總郵件內(nèi)容并生成更好的回復(fù)。
1.AI模型:Gemimi宇宙
皮查伊在大會(huì)上公布了一系列AI模型的動(dòng)態(tài)。
首先是對(duì)Gemini 1.5 Pro模型進(jìn)行了升級(jí)。
Gemini 1.5 Pro模型已全球向開(kāi)發(fā)者開(kāi)放。原本它的上下文窗口是100萬(wàn)tokens,現(xiàn)在增加到了200萬(wàn)tokens,能處理更多的數(shù)據(jù)。
用戶(hù)即使提供數(shù)千頁(yè)的文本或者幾個(gè)小時(shí)的視頻,Gemini 1.5 Pro也能夠理解內(nèi)容并回答相關(guān)的問(wèn)題。這項(xiàng)升級(jí)將讓模型能同時(shí)處理2小時(shí)的視頻、22小時(shí)的音頻、超過(guò)60000行代碼,或超過(guò)140萬(wàn)個(gè)單詞。
下個(gè)月Gemini 1.5 Pro還將在API層面推出新功能,包括視頻輸入、并行函數(shù)調(diào)用和文本緩存,以提高處理多個(gè)請(qǐng)求和問(wèn)答文件時(shí)的效率。
隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。
這是一個(gè)比Gemini 1.5 Pro模型運(yùn)行更快,體積更小,更易于部署,支持處理多種類(lèi)型的數(shù)據(jù),它專(zhuān)為開(kāi)發(fā)者設(shè)計(jì)。
Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間,通過(guò)一種稱(chēng)為“蒸餾”的過(guò)程,將Pro版本中的關(guān)鍵知識(shí)和技能轉(zhuǎn)移到一個(gè)更小的模型中,使其具備與Pro相同的多模態(tài)功能和100萬(wàn)個(gè)token的長(zhǎng)上下文窗口。
Gemini 1.5 Flash現(xiàn)在就可以使用了。
DeepMind的聯(lián)合創(chuàng)始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)提到,他們根據(jù)開(kāi)發(fā)者的反饋,優(yōu)化了模型的響應(yīng)速度和成本效率。Gemini 1.5 Flash在處理大量數(shù)據(jù)方面表現(xiàn)出色,特別適用于聊天應(yīng)用、視頻處理和圖像字幕。
Gemini 1.5 Pro將在Alphabet的內(nèi)部測(cè)試實(shí)驗(yàn)室Workspace Labs進(jìn)行測(cè)試。Gemini 1.5 Flash也將在機(jī)器學(xué)習(xí)平臺(tái)Vertex AI上進(jìn)行試驗(yàn)和使用,該平臺(tái)使開(kāi)發(fā)者能夠訓(xùn)練和部署AI應(yīng)用。
Gemini 1.5 Flash每百萬(wàn)token的標(biāo)準(zhǔn)價(jià)格為0.7美元,輸出為1.05美元。對(duì)于較小的上下文(小于128k),有折扣價(jià):輸入為0.35美元/百萬(wàn)token,輸出為0.53美元/百萬(wàn)token。這比GPT-3.5 Turbo的價(jià)格(輸入0.5美元/百萬(wàn)token,輸出0.15美元/百萬(wàn)token)要高一些。
Gemini 1.5 Pro是Google當(dāng)前最強(qiáng)大的模型,標(biāo)準(zhǔn)價(jià)格為每百萬(wàn)token輸入7美元,輸出21美元。對(duì)于較小的上下文(同樣小于128k),折扣價(jià)格為輸入3.5美元/百萬(wàn)token,輸出10.5美元/百萬(wàn)token。相比于GPT-4o(輸入價(jià)格5美元/百萬(wàn)token,輸出15美元/百萬(wàn)token)略貴一些。
目前,谷歌正在籌備一款Project Astra的通用AI代理,這是一款通過(guò)智能手機(jī)攝像頭分析周?chē)澜绮⑴c用戶(hù)進(jìn)行交互的應(yīng)用。
Astra設(shè)計(jì)為能夠記住看到和聽(tīng)到的內(nèi)容,從而理解上下文并采取行動(dòng)。為了提高實(shí)用性,谷歌優(yōu)化了其處理信息的速度,通過(guò)持續(xù)編碼視頻幀和結(jié)合視頻與語(yǔ)音輸入到事件時(shí)間線(xiàn)上,并緩存信息以實(shí)現(xiàn)高效回憶。
此外,谷歌還通過(guò)增強(qiáng)語(yǔ)音模型,讓Astra具有更廣泛的語(yǔ)調(diào),使其可以更自然地與用戶(hù)交流,無(wú)滯后或延遲。
在實(shí)際演示中,一個(gè)人使用手機(jī)的攝像頭掃描辦公室,與Astra通過(guò)語(yǔ)言交互,比如詢(xún)問(wèn)“當(dāng)你看到有東西發(fā)出聲音時(shí),請(qǐng)告訴我。”Astra不僅能識(shí)別物體和代碼,還能實(shí)時(shí)進(jìn)行語(yǔ)音互動(dòng),展現(xiàn)了它的實(shí)用性和交互能力。
Project Astra展示了其出色的視覺(jué)理解能力和快速的響應(yīng)時(shí)間。一個(gè)人在辦公室中用攝像頭掃描其中的物品及場(chǎng)景,并用語(yǔ)音詢(xún)問(wèn)它相關(guān)問(wèn)題。與GPT-4o的功能異曲同工。