多年前,谷歌(Google)憑借AlphaGo的驚艷表現(xiàn)在全球掀起了一波人工智能(AI)浪潮。但近一年來在OpenAI ChatGPT所引發(fā)的AI新浪潮中,谷歌被壓著打了一年,急需一款現(xiàn)象級(jí)的AI產(chǎn)品來證明自己的實(shí)力。
自 ChatGPT 發(fā)布以來,人們一直對(duì)谷歌聲稱的競品 Gemini 模型的能力非常好奇,這款大模型早在今年 3 月就有了風(fēng)聲,5 月的 I/O 大會(huì)上進(jìn)入“即將推出”的狀態(tài)。
但在11月時(shí)曾有(假)消息稱,谷歌的大模型發(fā)布時(shí)間被推遲到了2024年1月,原因是“發(fā)現(xiàn)該AI模型不能可靠地處理一些非英語查詢”, 而對(duì)多種語言的支持對(duì)Gemini的全球成功至關(guān)重要。
虛晃一槍,還是發(fā)布了
12月7日凌晨,谷歌終于發(fā)布了自家“原生多模態(tài)”(natively multimodal)大模型Gemini。谷歌 CEO 桑達(dá)爾?皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上線,并表示這是“谷歌迄今為止最大、能力最強(qiáng)的AI模型”。
這樣看來,谷歌是懂放煙幕彈和玩驚喜的。Sundar Pichai在Gemini的官宣博客中寫道:
“在許多領(lǐng)先的基準(zhǔn)測(cè)試中都具有最先進(jìn)的性能。谷歌的第一個(gè)版本 Gemini 1.0 針對(duì)不同尺寸進(jìn)行了優(yōu)化:Ultra、Pro 和 Nano。這些是 Gemini 時(shí)代的第一個(gè)模型,也是谷歌今年早些時(shí)候成立 Google DeepMind 時(shí)的愿景的首次實(shí)現(xiàn)。這個(gè)模型的新時(shí)代代表了谷歌作為一家公司所做出的最大的科學(xué)和工程努力之一。我對(duì)未來以及雙子座將為世界各地的人們帶來的機(jī)會(huì)感到由衷地興奮?!?/p>
Gemini和ChatGPT有什么不同
所謂多模態(tài)大模型,就是和市面上現(xiàn)有大模型相比,可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數(shù)據(jù)中心到移動(dòng)設(shè)備上,它都能夠運(yùn)行,而不需要額外的專門處理或轉(zhuǎn)換。
如果要問Gemini和GPT-4有什么不同,可以將GPT-4比作一個(gè)詩人,他不僅擅長寫詩,還會(huì)畫畫,但寫詩是他的職業(yè),畫畫只是他的副業(yè)。GPT-4能處理文字(寫詩)和圖片(畫畫),但它主要還是以文字處理為強(qiáng)項(xiàng)。
而具有“原生多模態(tài)能力”的Gemini則是一個(gè)詩人、畫家“雙料人才”,他在寫詩和畫畫方面同樣出色,沒有哪一方面比另一方面弱。Gemini能夠同時(shí)處理文字和圖片,并且在這兩個(gè)方面都做得很好,沒有主次之分。
在Gemini發(fā)布之前,谷歌在生成式AI和大語言模型(LLM)方面主推的兩款模型PaLM 2和LaMDA,在用戶當(dāng)中收獲的評(píng)價(jià)一直不高,相對(duì)于業(yè)界領(lǐng)軍的GPT-4差距很大。
而這次對(duì)于Gemini,谷歌的評(píng)價(jià)是:“比市面上所有人工智能系統(tǒng)都更強(qiáng)大,連ChatGPT創(chuàng)造者OpenAI開發(fā)的技術(shù)都要甘拜下風(fēng)?!?/p>
據(jù)悉,Gemini也是谷歌大腦(Google Brain)和DeepMind合并組建Google DeepMind之后的首個(gè)重要產(chǎn)品。有了AlphaGo戰(zhàn)勝人類圍棋世界冠軍的先例,人們已經(jīng)不把AI在某些領(lǐng)域超越人類當(dāng)成是新鮮事了,但在ChatGPT帶來的AGI、強(qiáng)人工智能“威懾”下,任何被稱為超越人類的AI,多多少少都會(huì)引發(fā)關(guān)注。
首個(gè)在MMLU測(cè)評(píng)上超過人類專家的大模型
MMLU(大規(guī)模多任務(wù)語言理解)是一個(gè)結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個(gè)科目的測(cè)試集。相比于其他測(cè)試集,MMLU的廣泛性和深度更強(qiáng),它通過大量和多樣的任務(wù)來測(cè)試AI模型在理解自然語言方面的能力,特別是在復(fù)雜和多變的真實(shí)世界場景中的表現(xiàn)。這使得MMLU成為一個(gè)極具挑戰(zhàn)性的評(píng)測(cè)框架,可以全面地評(píng)估和推動(dòng)大型語言模型的發(fā)展。
GPT-4與Gemini在MMLU測(cè)試集的對(duì)比
這個(gè)框架通常包括數(shù)以千計(jì)的不同任務(wù),涵蓋廣泛的主題和挑戰(zhàn)。MMLU 的目的是提供一個(gè)全面且多樣化的方法,測(cè)試和評(píng)估語言模型在各種復(fù)雜和現(xiàn)實(shí)世界場景中的表現(xiàn)。其中的測(cè)試任務(wù)可能包括理解笑話、回答有關(guān)世界歷史的問題、解釋科學(xué)現(xiàn)象等眾多更接近于人類知識(shí)、常識(shí)和理解能力的項(xiàng)目。
Gemini Ultra是首個(gè)在MMLU測(cè)評(píng)上超過人類專家的大模型,取得90.0%的成績。作為對(duì)比,人類專家的成績?yōu)?9.8%,GPT-4為86.4%。
谷歌在官方博客中稱:Gemini利用MMLU基準(zhǔn)方法使Gemini能夠利用其推理能力在回答難題之前更仔細(xì)地思考,從而比僅使用第一印象有顯著改進(jìn)。
LLM的主流評(píng)測(cè)數(shù)據(jù)集包括GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于評(píng)估模型在語言理解、推理、閱讀理解和常識(shí)推理等方面的能力。
Gemini Ultra在LLM研發(fā)中使用的32個(gè)多模態(tài)基準(zhǔn)中取得30個(gè)SOTA(當(dāng)前最優(yōu)效果),幾乎全方位超越GPT-4。
在包括文本和編碼在內(nèi)的一系列基準(zhǔn)測(cè)試中, Gemini 的性能都超過了當(dāng)前最先進(jìn)的水平
除此之外,Gemini Ultra 還在新的MMMU(專家 AGI 的大規(guī)模多學(xué)科多模式理解和推理)基準(zhǔn)測(cè)試中取得了59.4%的最先進(jìn)分?jǐn)?shù),該基準(zhǔn)測(cè)試由跨越不同領(lǐng)域、需要深思熟慮的推理的多模態(tài)任務(wù)組成。
測(cè)試結(jié)果顯示,Gemini Ultra 的性能優(yōu)于之前最先進(jìn)的模型,無需從圖像中提取文本以進(jìn)行進(jìn)一步處理的對(duì)象字符識(shí)別 (OCR) 系統(tǒng)的幫助。這些基準(zhǔn)凸顯了雙子座天生的多模態(tài)性,并表明了雙子座更復(fù)雜推理能力的早期跡象。
Gemini在文本和編碼等一系列基準(zhǔn)測(cè)試中的表現(xiàn)
能幫助碼農(nóng)和學(xué)生解決大量問題
據(jù)介紹,Gemini經(jīng)訓(xùn)練后,能展現(xiàn)出更像人類的行事方式?!癎emini可以像我們一樣,理解我們周圍的世界。”谷歌DeepMind CEO Demis Hassabis表示。
在發(fā)布會(huì)上的一段演示視頻中,一個(gè)男子做出后仰并躲避的慢動(dòng)作,AI馬上猜出:這是表演《黑客帝國》中“子彈時(shí)間”的場景。
當(dāng)人類拿起畫筆在一張紙上勾勒出一只鴨子,并為它涂上了藍(lán)色。這次AI說道:“這可不是鴨子常見的顏色?!?/p>
三個(gè)空杯并排放在桌子上,一張藍(lán)色紙團(tuán)被塞進(jìn)其中一個(gè)杯子里,在人類一番眼花繚亂的操作后,AI準(zhǔn)確地猜出:“紙團(tuán)在最左邊的杯子里!”
上傳食材圖像和語音輸入,AI不僅可以指導(dǎo)你做菜,還能在不同階段提出相應(yīng)的建議。
在視頻演示完后,谷歌 DeepMind產(chǎn)品副總裁Eli Collins表示,“我們離新一代人工智能模型的愿景越來越近了。這是谷歌迄今為止功能最強(qiáng)大、最通用的大模型。”
編程是大模型衡量能力的重要維度,也是很多碼農(nóng)的剛需。Gemini Ultra 在多個(gè)編碼基準(zhǔn)測(cè)試中表現(xiàn)出色,包括 HumanEval(用于評(píng)估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))和 Natural2Code(谷歌內(nèi)部數(shù)據(jù)集),該數(shù)據(jù)集使用作者生成的源代碼而不是基于網(wǎng)絡(luò)的信息。
兩年前,谷歌推出了 AlphaCode,這是第一個(gè)在編程競賽中達(dá)到競爭性水平的人工智能代碼生成系統(tǒng)。基于Gemini,谷歌本次還推出了更先進(jìn)的編程系統(tǒng)AlphaCode 2,它能理解、解釋并生成 Python、Java、C++ 和 Go 等編程語言的高質(zhì)量代碼。
和上一代產(chǎn)品AlphaCode相比,AlphaCode 2解決的問題數(shù)量幾乎是原來的兩倍,其表現(xiàn)優(yōu)于85%的競賽參與者,AlphaCode的這一比例接近50%。如果程序員通過為代碼示例定義某些屬性來與AlphaCode 2協(xié)作,它的性能還會(huì)更好。
Gemini還擅長解決一些超出編程范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的編程競賽問題。以解題為例,利用Gemini的多模態(tài)推理能力,AI能夠讀懂字跡凌亂的手寫內(nèi)容,正確理解問題的表述,還能夠把問題和解決方案都轉(zhuǎn)換為數(shù)字排版,識(shí)別出人類在解決問題時(shí)出錯(cuò)的具體推理步驟,并一步步給出問題的正確解決方案。
例如一位老師畫了一個(gè)滑雪者從斜坡上下來的物理問題,而一位學(xué)生則提出了一個(gè)解決方案來計(jì)算滑雪者在斜坡底部的速度。利用Gemini的多模態(tài)推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉(zhuǎn)換為數(shù)學(xué)公式,識(shí)別出學(xué)生在解決問題時(shí)出錯(cuò)的具體推理步驟,然后給出問題的正確解決方案。
三大版本,各有所長
本次發(fā)布包含三個(gè)版本:
Ultra是性能最強(qiáng)的模型,適用于高度復(fù)雜的任務(wù),在云上運(yùn)作;
Pro是可擴(kuò)展各種任務(wù)的最佳通用模型;
Nano是針對(duì)端側(cè)設(shè)備的小模型,比如在手機(jī)、家電等各類消費(fèi)設(shè)備上跑。Nano還細(xì)分了兩種型號(hào)尺寸:Nano-1(18 億參數(shù))和 Nano-2(32.5 億參數(shù)),分別針對(duì)低內(nèi)存和高內(nèi)存設(shè)備。
其中,Gemini Pro和Gemini Nano已分別在聊天機(jī)器人Bard和智能手機(jī)Pixel 8 Pro上集成,最強(qiáng)大的Gemini Ultra則將在明年發(fā)布。屆時(shí)其Ultra模型將用于推出聊天機(jī)械人的強(qiáng)化版“Bard Advanced”,最初僅向測(cè)試受眾提供。
谷歌表示,他們還要先給客戶、開發(fā)者、合作伙伴以及安全和責(zé)任專家進(jìn)行早期實(shí)驗(yàn)和反饋,預(yù)計(jì)在2024年初,Ultra版本會(huì)先向開發(fā)者和企業(yè)客戶提供服務(wù)。
從發(fā)布之日起,Bard 將使用 Gemini Pro 的微調(diào)版本來執(zhí)行更高級(jí)的推理、規(guī)劃、理解等。這是 Bard 自推出以來最大的升級(jí),集成Gemini Pro之后,已經(jīng)在超過170個(gè)國家和地區(qū)提供英語服務(wù)。
谷歌還根據(jù)許多行業(yè)標(biāo)準(zhǔn)基準(zhǔn),對(duì)Pro版本進(jìn)行了測(cè)試。結(jié)果顯示,在8個(gè)基準(zhǔn)測(cè)試中的6個(gè)里,Gemini Pro的表現(xiàn)優(yōu)于 GPT-3.5。為了展現(xiàn)升級(jí)后的Bard有多強(qiáng),谷歌甚至請(qǐng)了一個(gè)油管(Youtube)教育博主Mark Rober,全程使用Bard作為輔助工具,從零開始畫圖紙,最后真的造出了一架巨大的紙飛機(jī)!
雖然能力最弱,但Gemini Nano反倒因?yàn)槭褂们熬懊鞔_最受關(guān)注。根據(jù)介紹,Pixel 8 Pro的用戶已經(jīng)可以使用錄音app來實(shí)現(xiàn)“總結(jié)錄音內(nèi)容”的功能,并對(duì)WhatsApp等信息服務(wù)提供推薦自動(dòng)回覆文字功能。Pixel 8 Pro 也是為Gemini Nano設(shè)計(jì)的首款谷歌智能手機(jī),很多功能不用聯(lián)網(wǎng),就能直接調(diào)用。
在接下來的幾個(gè)月中,Gemini 將出現(xiàn)在谷歌更多的產(chǎn)品和服務(wù)中,例如搜索、廣告、Chrome 和 Duet AI。
強(qiáng)大的原因之一:專用 TPU 訓(xùn)練
谷歌表示,Gemini強(qiáng)于競爭對(duì)手的原因之一,是其強(qiáng)大的計(jì)算能力。
據(jù)悉谷歌使用內(nèi)部設(shè)計(jì)的張量處理單元 TPUs v4 和 v5e 在AI優(yōu)化基礎(chǔ)設(shè)施上對(duì) Gemini 1.0 進(jìn)行了大規(guī)模訓(xùn)練,并將其設(shè)計(jì)為最可靠、可擴(kuò)展的訓(xùn)練模型和最高效的服務(wù)模型。
在 TPU 上,Gemini 的運(yùn)行速度明顯快于早期規(guī)模較小、能力較弱的模型。這些定制設(shè)計(jì)的 AI 加速器是谷歌人工智能產(chǎn)品的核心,這些產(chǎn)品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數(shù)十億用戶提供服務(wù)。它們還幫助世界各地的公司經(jīng)濟(jì)高效地訓(xùn)練大規(guī)模人工智能模型。
在訓(xùn)練優(yōu)化方面,Gemini增加了對(duì)模型并行性和數(shù)據(jù)并行性的利用,并對(duì)網(wǎng)絡(luò)延遲和帶寬進(jìn)行了優(yōu)化。Gemini還使用了Jax和Pathways編程模型,為復(fù)雜的數(shù)學(xué)運(yùn)算(如在機(jī)器學(xué)習(xí)中常見的運(yùn)算)提供了優(yōu)化的支持。
Jax特別適用于高效地執(zhí)行大規(guī)模的數(shù)組運(yùn)算。Pathways指用于管理和協(xié)調(diào)大規(guī)模訓(xùn)練任務(wù)的編程模型或框架。通過使用這些工具,Gemini模型的開發(fā)者可以使用單個(gè)Python進(jìn)程來協(xié)調(diào)整個(gè)訓(xùn)練過程,這樣可以簡化開發(fā)和訓(xùn)練工作流,同時(shí)利用Jax和Pathways的高效性能。
發(fā)布會(huì)上,谷歌同時(shí)發(fā)布了迄今為止最強(qiáng)大、最高效、可擴(kuò)展的 TPU 系統(tǒng) —Cloud TPU v5p,稱訓(xùn)練速度比前代快2.8倍,專為訓(xùn)練尖端的人工智能模型而設(shè)計(jì)。新一代 TPU 將加速 Gemini 的發(fā)展,幫助開發(fā)人員和企業(yè)客戶更快地訓(xùn)練大規(guī)模生成式 AI 模型,讓新產(chǎn)品和新功能更快地與客戶見面。
競爭者們也沒閑著
外媒稱,谷歌的Gemini旨在與ChatGPT背后的開發(fā)商OpenAI在對(duì)話式人工智能領(lǐng)域展開競爭。通過發(fā)布Gemini,谷歌不僅希望能與ChatGPT相媲美,還希望能超越它們,提供更無縫、更自然的對(duì)話。
雖然這次被cue,OpenAI這邊其實(shí)一直也沒閑著。據(jù) The Information 今年9月報(bào)道,OpenAI 正在開發(fā)一款名為 Gobi 的多模態(tài)大模型,對(duì)標(biāo)的正是谷歌Gemini。不過目前關(guān)于這款大模型產(chǎn)品的具體信息尚不確認(rèn),OpenAI 原本希望可以在谷歌Gemini發(fā)布之前推出,但很明顯被“宮斗”耽誤了。
另外就在谷歌發(fā)布Gemini之前,微軟剛剛宣布了旗下AI助手Copilot重大升級(jí),將接入OpenAI的最新模型GPT-4 Turbo。
Gemini的發(fā)布掀起了多模態(tài)領(lǐng)域的冰山一角,這類領(lǐng)域目前還在技術(shù)探索初期,技術(shù)路徑還未確定。比起大語言模型,多模態(tài)模型增加了音頻、視頻、圖片這些數(shù)據(jù),訓(xùn)練難度也更大。
但為什么巨頭們還要做?據(jù)思科的年度互聯(lián)網(wǎng)報(bào)告——視頻已經(jīng)占據(jù)互聯(lián)網(wǎng)超過80%的流量。在視頻內(nèi)容已經(jīng)稱為信息時(shí)代主流的時(shí)候,單純只有文字和圖片的大模型顯然是不夠的。
雖然目前看起來, Google Gemini在“跑分”上更勝一籌,但接下來,更重要的是各家大模型在實(shí)際應(yīng)用中的比拼。其中AI安全是最近的熱門話題,也是谷歌本次重點(diǎn)強(qiáng)調(diào)的。
谷歌基礎(chǔ)設(shè)施與系統(tǒng)副總裁Amin Vahdat表示,Gemini在開發(fā)的各個(gè)階段都會(huì)考慮潛在的風(fēng)險(xiǎn),并努力進(jìn)行測(cè)試和降低這些風(fēng)險(xiǎn)。
他透露,Gemini的安全評(píng)估包括偏見和毒性評(píng)估,并應(yīng)用了 Google Research 的對(duì)抗性測(cè)試技術(shù),幫助在部署 Gemini 之前檢測(cè)關(guān)鍵的安全問題。
例如,為了在 Gemini 的訓(xùn)練階段診斷內(nèi)容安全問題,并確保其輸出符合政策,谷歌團(tuán)隊(duì)使用了一些基準(zhǔn)測(cè)試,例如真實(shí)毒性提示(Real Toxicity Prompts),這是一套由 Allen Institute of AI 的專家開發(fā)的基準(zhǔn)測(cè)試,包含了從網(wǎng)絡(luò)上提取的 10 萬條具有不同程度毒性的提示。
此外,為了減少傷害,團(tuán)隊(duì)還構(gòu)建了專門的安全分類器來識(shí)別、標(biāo)記和篩選涉及暴力或負(fù)面刻板印象等方面的內(nèi)容。“此外,我們正繼續(xù)解決模型面臨的已知挑戰(zhàn),例如事實(shí)性、基礎(chǔ)、歸因性以及協(xié)作性。”
谷歌沒有透露未來是否會(huì)專門為Gemini定制應(yīng)用程序,但高管對(duì)記者表示,更加希望看到用戶在這種技術(shù)的基礎(chǔ)上創(chuàng)建更多的應(yīng)用程序。
谷歌透露,從 12 月 13 日開始,開發(fā)者和企業(yè)客戶可以通過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 獲取 Gemini Pro。
審核編輯:黃飛
評(píng)論