作者|冬梅
就在 OpenAI“12 天連續(xù)轟炸”的第五天,谷歌終于坐不住了。
剛剛,谷歌正式發(fā)布了 Gemini 2.0 系列人工智能模型的首個(gè)版本,該模型名為 Gemini 2.0 Flash,提供聊天版本供全球用戶(hù)使用,同時(shí)還有一個(gè)實(shí)驗(yàn)版的模型可供開(kāi)發(fā)人員免費(fèi)使用,該版本具有文本轉(zhuǎn)語(yǔ)音和圖像生成功能。
據(jù)谷歌稱(chēng),這是Agent 時(shí)代迄今為止為***強(qiáng)大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快兩倍,并且比更大的“專(zhuān)業(yè)”版 Gemini 1.5 更加強(qiáng)大。此外,該版本帶來(lái)了增強(qiáng)的性能、更多的多模態(tài)性和新的原生工具。
相比上一代模型,Gemini 2.0 增加了什么?
谷歌首席執(zhí)行官 Sundar Pichai 在一份聲明中表示:“如果 Gemini 1.0 致力于組織和理解信息,那么 Gemini 2.0 則致力于讓信息變得更加有用。”
谷歌***新的大語(yǔ)言模型在大多數(shù)用戶(hù)請(qǐng)求領(lǐng)域都比其前代產(chǎn)品表現(xiàn)更好,例如代碼生成和根據(jù)用戶(hù)請(qǐng)求提供事實(shí)正確響應(yīng)的能力。
在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 團(tuán)隊(duì)撰寫(xiě)的博文中,詳細(xì)介紹了 Gemini 2.0 版本的具體特性。
據(jù)他們稱(chēng),Gemini 2.0 Flash 以 1.5 Flash 的成功為基礎(chǔ),是谷歌目前***受開(kāi)發(fā)者歡迎的版本,在同樣快速的響應(yīng)時(shí)間下具有增強(qiáng)的性能。值得注意的是,2.0 Flash 在關(guān)鍵基準(zhǔn)測(cè)試中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的兩倍。2.0 Flash 還具有新功能。除了支持圖像、視頻和音頻等多模式輸入外,2.0 Flash 現(xiàn)在還支持多模式輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉(zhuǎn)語(yǔ)音 (TTS) 多語(yǔ)言音頻。它還可以原生調(diào)用 Google 搜索、代碼執(zhí)行以及第三方用戶(hù)定義函數(shù)等工具。
過(guò)去一個(gè)月,Gemini 團(tuán)隊(duì)一直在分享 Gemini 2.0 的早期實(shí)驗(yàn)版本,并得到了開(kāi)發(fā)人員的積極反饋。
Gemini 2.0 Flash 現(xiàn)已作為實(shí)驗(yàn)?zāi)P屯ㄟ^(guò) Google AI Studio 和 Vertex AI 中的 Gemini API 向開(kāi)發(fā)者提供,所有開(kāi)發(fā)者均可使用多模式輸入和文本輸出,早期合作伙伴可使用文本轉(zhuǎn)語(yǔ)音和原生圖像生成功能。
1 月份將***上市,同時(shí)將推出更多模型尺寸。為了幫助開(kāi)發(fā)人員構(gòu)建動(dòng)態(tài)和交互式應(yīng)用程序,谷歌還發(fā)布了新的 Multimodal Live API,它具有實(shí)時(shí)音頻、視頻流輸入以及使用多個(gè)組合工具的能力。
要訪問(wèn)實(shí)驗(yàn)版本 Flash 2.0 的聊天優(yōu)化版本,Gemini 用戶(hù)可以在桌面和移動(dòng)網(wǎng)絡(luò)上的模型下拉菜單中選擇它。該公司表示,它將很快在 Gemini 移動(dòng)應(yīng)用程序上提供。
Gemini Flash 2.0 的多模版本將通過(guò) Google 的 AI Studio 和 Vertex AI 開(kāi)發(fā)者平臺(tái)提供。
該公司還表示,計(jì)劃在 2025 年初將 Gemini 2.0 擴(kuò)展到更多谷歌產(chǎn)品。
推出 Deep Search 新功能
谷歌此次發(fā)布的還不僅僅是大模型。谷歌宣布將推出一項(xiàng)名為 Deep Research 的新功能,它使用高級(jí)推理和長(zhǎng)上下文功能充當(dāng)研究助手,探索復(fù)雜主題并代表用戶(hù)編寫(xiě)報(bào)告。它今日起已經(jīng) Gemini Advanced 中可用。
據(jù)谷歌方面稱(chēng),Search 無(wú)疑是受到人工智能影響***深遠(yuǎn)、變革***顯著的產(chǎn)品。如今,AI Overviews 已觸達(dá) 10 億用戶(hù),該功能使用戶(hù)能夠提出全新的問(wèn)題類(lèi)型,迅速成為 Search 有史以來(lái)***受歡迎的功能之一。接下來(lái),谷歌會(huì)將 Gemini 2.0 的高級(jí)推理能力融入 AI Overviews,以攻克更復(fù)雜的主題和多步驟問(wèn)題,包括高等數(shù)學(xué)方程、多模態(tài)查詢(xún)和編碼。同時(shí),谷歌還計(jì)劃明年將 AI Overviews 功能面向更多國(guó)家開(kāi)放,適配更多語(yǔ)言。
2.0 基于谷歌定制的硬件第六代 TPU Trillium 構(gòu)建而成。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供 *** 算力支持,今天 Trillium 也***向用戶(hù)開(kāi)放,以便他們能夠基于此進(jìn)行開(kāi)發(fā)。
通過(guò) Gemini 2.0 解鎖 Agent 體驗(yàn)
Gemini 2.0 Flash 已經(jīng)進(jìn)行了原生用戶(hù)界面操作能力的改進(jìn),其他改進(jìn)還包括多模式推理、長(zhǎng)上下文理解、復(fù)雜指令跟蹤和規(guī)劃、組合函數(shù)調(diào)用、原生工具使用和改進(jìn)的延遲等。
自大模型誕生以來(lái),AI Agent 的實(shí)際應(yīng)用是一個(gè)非;鸨难芯款I(lǐng)域。谷歌正在通過(guò)一系列原型探索這一新領(lǐng)域,這些原型可以幫助人們完成任務(wù)并完成工作。其中包括對(duì) Project Astra 的更新,這是谷歌的研究原型,旨在探索通用人工智能助手的未來(lái)功能;新 Project Mariner,它從瀏覽器開(kāi)始探索人機(jī)交互的未來(lái);以及 Jules,一個(gè)可以幫助開(kāi)發(fā)人員的 AI 代碼 Agent。
Gemini API 集團(tuán)產(chǎn)品經(jīng)理 Shrestha Basu Mallick 和谷歌實(shí)驗(yàn)室產(chǎn)品總監(jiān) Kathy Korevec 表示:“從今天開(kāi)始(對(duì)于受信任的測(cè)試人員),你可以將 Python 和 JavaScript 編碼任務(wù)轉(zhuǎn)移給 Jules。Jules 可以異步工作并與你的 GitHub 工作流程集成,處理錯(cuò)誤修復(fù)和其他耗時(shí)任務(wù),而你則專(zhuān)注于你真正想要構(gòu)建的內(nèi)容。
谷歌也表示,即便技術(shù)持續(xù)迭代,但 Gemini 系列模型仍處于開(kāi)發(fā)的早期階段,他們很高興看到那些值得信賴(lài)的測(cè)試人員如何使用這些新功能以及他們可以從中學(xué)到什么經(jīng)驗(yàn),這樣就可以在未來(lái)的產(chǎn)品中更廣泛地使用它們。
硬剛一眾 AI 獨(dú)角獸,谷歌更勝一籌?
Gemini 2.0 是谷歌在科技行業(yè)日益激烈的人工智能競(jìng)賽中的***。谷歌正在與科技巨頭微軟、Meta 以及一眾 AI 明星獨(dú)角獸如 OpenAI、Perplexity 和 Anthropic 等初創(chuàng)公司展開(kāi)激烈戰(zhàn)爭(zhēng)。
谷歌這一波出手在技術(shù)社區(qū)引發(fā)了熱議,一名 Reddit 用戶(hù)對(duì) Gemini 2.0 的發(fā)布表示震驚,他評(píng)論道:
“我不知道我現(xiàn)在的感受是什么。興奮、擔(dān)憂、不安、好奇以及對(duì) AI 的***敬畏交織在一起。超現(xiàn)實(shí)的是,我們正在經(jīng)歷這種改進(jìn),并且每次發(fā)布的迭代都給我們留下了深刻的印象。我甚至都不敢想象 10 年后的情況?纯 2004 年到 2014 年的科技各個(gè)方面都取得了巨大進(jìn)展,但與這兩年 AI 勢(shì)頭相比還有很大差距。”
有用戶(hù)調(diào)侃,谷歌甚至都等不及 OpenAI 把“瘋狂發(fā)布周”過(guò)完再來(lái)炸場(chǎng),結(jié)合前兩日 Sora 潦草發(fā)布,有不少網(wǎng)友直接站隊(duì)谷歌:
“谷歌的 Gemini ***是是 GPT-5 級(jí)別的威脅,我從未見(jiàn)過(guò)一家公司發(fā)布如此強(qiáng)大的模型讓開(kāi)發(fā)者免費(fèi)試用。”
隨著新 Flash 模型的發(fā)布,這場(chǎng) AI 軍備競(jìng)賽已經(jīng)進(jìn)入白熱化階段。據(jù)谷歌公司稱(chēng),Agent 模型“可以更好地了解你周?chē)氖澜,提前思考多個(gè)步驟,并在你的監(jiān)督下代表你采取行動(dòng)。”
上周,在《紐約時(shí)報(bào)》 DealBook 峰會(huì)上與安德魯·羅斯·索爾金 (Andrew Ross Sorkin) 的對(duì)話中,谷歌 CEO 皮查伊對(duì)微軟的人工智能進(jìn)步提出了質(zhì)疑,表示他“很樂(lè)意在任何時(shí)候”對(duì)兩家公司的模型進(jìn)行并排比較。
安德魯·羅斯·索爾金問(wèn)皮查伊:“相對(duì)于其他參與者,你認(rèn)為自己處于什么位置?”
皮查伊表示他很想進(jìn)行并排比較,隨后他補(bǔ)充道:“他們使用了別人的模型。”
“你這是在向我發(fā)起挑戰(zhàn)。”索金回答道。
皮查伊笑著搖了搖頭,補(bǔ)充道:“我只是——我非常尊重他們和他們的團(tuán)隊(duì)。”
微軟當(dāng)家人納德拉對(duì)于谷歌技術(shù)實(shí)力也給予了很高的肯定。
早在今年 3 月份,微軟 CEO 納德拉在挪威銀行投資管理播客上表示:“谷歌本應(yīng)就是大型科技公司 AI 競(jìng)賽的默認(rèn)贏家。谷歌是一家非常有能力的公司,他們既有人才,又有計(jì)算能力。他們是這個(gè)領(lǐng)域的垂直整合參與者。他們擁有從數(shù)據(jù)到芯片到模型到產(chǎn)品和分銷(xiāo)的一切。”