Gemini貫穿一切。

這是「甲子光年」在看完2024年Google I/O開(kāi)發(fā)者大會(huì)的最大感受。

5月14日，谷歌2024年I/O開(kāi)發(fā)者大會(huì)如期在加州山景城拉開(kāi)帷幕。今年的主題完全圍繞人工智能展開(kāi)，特別是生成式人工智能和其在各類(lèi)應(yīng)用中的實(shí)際應(yīng)用，如 Workspace和Gmail的整合與優(yōu)化。

首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）在演講中一共說(shuō)了121次“AI”，并喊出了一句嘹亮的口號(hào)——“整合全球信息，惠及所有民眾”。

現(xiàn)場(chǎng)，谷歌發(fā)布了Gemini系列的最新AI模型：Gemini 1.5 Flash。

同時(shí)，谷歌也宣布了Gemini 1.5 Pro升級(jí)，全面支持Workspace，同時(shí)向全球開(kāi)發(fā)者開(kāi)放。Google Workspace辦公套件也宣布將進(jìn)一步整合Gemini，推出基于Gemini 1.5 Pro的多種技能，如可總結(jié)郵件內(nèi)容。Gmail也將深度整合Gemini，匯總郵件內(nèi)容并生成更好的回復(fù)。

1.AI模型：Gemimi宇宙

皮查伊在大會(huì)上公布了一系列AI模型的動(dòng)態(tài)。

首先是對(duì)Gemini 1.5 Pro模型進(jìn)行了升級(jí)。

Gemini 1.5 Pro模型已全球向開(kāi)發(fā)者開(kāi)放。原本它的上下文窗口是100萬(wàn)tokens，現(xiàn)在增加到了200萬(wàn)tokens，能處理更多的數(shù)據(jù)。

谷歌I/O大會(huì)現(xiàn)場(chǎng)，來(lái)源：谷歌

用戶(hù)即使提供數(shù)千頁(yè)的文本或者幾個(gè)小時(shí)的視頻，Gemini 1.5 Pro也能夠理解內(nèi)容并回答相關(guān)的問(wèn)題。這項(xiàng)升級(jí)將讓模型能同時(shí)處理2小時(shí)的視頻、22小時(shí)的音頻、超過(guò)60000行代碼，或超過(guò)140萬(wàn)個(gè)單詞。

下個(gè)月Gemini 1.5 Pro還將在API層面推出新功能，包括視頻輸入、并行函數(shù)調(diào)用和文本緩存，以提高處理多個(gè)請(qǐng)求和問(wèn)答文件時(shí)的效率。

隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。

這是一個(gè)比Gemini 1.5 Pro模型運(yùn)行更快，體積更小，更易于部署，支持處理多種類(lèi)型的數(shù)據(jù)，它專(zhuān)為開(kāi)發(fā)者設(shè)計(jì)。

Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間，通過(guò)一種稱(chēng)為“蒸餾”的過(guò)程，將Pro版本中的關(guān)鍵知識(shí)和技能轉(zhuǎn)移到一個(gè)更小的模型中，使其具備與Pro相同的多模態(tài)功能和100萬(wàn)個(gè)token的長(zhǎng)上下文窗口。

Gemini 1.5 Flash現(xiàn)在就可以使用了。

DeepMind的聯(lián)合創(chuàng)始人兼CEO戴密斯·哈薩比斯（Demis Hassabis）提到，他們根據(jù)開(kāi)發(fā)者的反饋，優(yōu)化了模型的響應(yīng)速度和成本效率。Gemini 1.5 Flash在處理大量數(shù)據(jù)方面表現(xiàn)出色，特別適用于聊天應(yīng)用、視頻處理和圖像字幕。

Gemini 1.5 Pro將在Alphabet的內(nèi)部測(cè)試實(shí)驗(yàn)室Workspace Labs進(jìn)行測(cè)試。Gemini 1.5 Flash也將在機(jī)器學(xué)習(xí)平臺(tái)Vertex AI上進(jìn)行試驗(yàn)和使用，該平臺(tái)使開(kāi)發(fā)者能夠訓(xùn)練和部署AI應(yīng)用。

Gemini 1.5 Flash每百萬(wàn)token的標(biāo)準(zhǔn)價(jià)格為0.7美元，輸出為1.05美元。對(duì)于較小的上下文（小于128k），有折扣價(jià)：輸入為0.35美元/百萬(wàn)token，輸出為0.53美元/百萬(wàn)token。這比GPT-3.5 Turbo的價(jià)格（輸入0.5美元/百萬(wàn)token，輸出0.15美元/百萬(wàn)token）要高一些。

谷歌I/O大會(huì)現(xiàn)場(chǎng)，來(lái)源：谷歌

Gemini 1.5 Pro是Google當(dāng)前最強(qiáng)大的模型，標(biāo)準(zhǔn)價(jià)格為每百萬(wàn)token輸入7美元，輸出21美元。對(duì)于較小的上下文（同樣小于128k），折扣價(jià)格為輸入3.5美元/百萬(wàn)token，輸出10.5美元/百萬(wàn)token。相比于GPT-4o（輸入價(jià)格5美元/百萬(wàn)token，輸出15美元/百萬(wàn)token）略貴一些。

目前，谷歌正在籌備一款Project Astra的通用AI代理，這是一款通過(guò)智能手機(jī)攝像頭分析周?chē)澜绮⑴c用戶(hù)進(jìn)行交互的應(yīng)用。

Astra設(shè)計(jì)為能夠記住看到和聽(tīng)到的內(nèi)容，從而理解上下文并采取行動(dòng)。為了提高實(shí)用性，谷歌優(yōu)化了其處理信息的速度，通過(guò)持續(xù)編碼視頻幀和結(jié)合視頻與語(yǔ)音輸入到事件時(shí)間線(xiàn)上，并緩存信息以實(shí)現(xiàn)高效回憶。

此外，谷歌還通過(guò)增強(qiáng)語(yǔ)音模型，讓Astra具有更廣泛的語(yǔ)調(diào)，使其可以更自然地與用戶(hù)交流，無(wú)滯后或延遲。

在實(shí)際演示中，一個(gè)人使用手機(jī)的攝像頭掃描辦公室，與Astra通過(guò)語(yǔ)言交互，比如詢(xún)問(wèn)“當(dāng)你看到有東西發(fā)出聲音時(shí)，請(qǐng)告訴我。”Astra不僅能識(shí)別物體和代碼，還能實(shí)時(shí)進(jìn)行語(yǔ)音互動(dòng)，展現(xiàn)了它的實(shí)用性和交互能力。

Project Astra展示了其出色的視覺(jué)理解能力和快速的響應(yīng)時(shí)間。一個(gè)人在辦公室中用攝像頭掃描其中的物品及場(chǎng)景，并用語(yǔ)音詢(xún)問(wèn)它相關(guān)問(wèn)題。與GPT-4o的功能異曲同工。

欧美日韩国产精品-欧美日韩国产精品综合-欧美日韩国产伦理-欧美日韩国产码高清综合人成-黄色网页在线观看-黄色网页在线播放

Google I/O 2024: 從Gemini“宇宙”到Android 15

1.AI模型：Gemimi宇宙

干貨教程更多>>