谷歌的原生多模態大模型Gemini來了，劍指GPT-4

2023年12月07日21:30:10 財經 8921

在此前被OpenAI壓制了一整年後，就在2023年進入尾聲時，當年憑藉AlphaGo曾掀起人工智慧浪潮的谷歌，也終於揚眉吐氣了一把，揭開了原生多模態大模型Gemini的神秘面紗。據悉，Gemini號稱是谷歌迄今為止「最大、也最全能的AI模型」，擁有文本、圖像、視頻、音頻和代碼能力，而且有別與其他大模型Gemini更加靈活，其包括了能力最強、複雜度最高的Gemini Ultra，適用於多任務的Gemini Pro，以及端側的Gemini Nano（1.8B/3.25B）。

從能夠在移動端到大型數據中心的所有設備上運行，就足以證明谷歌對Gemini寄予厚望。根據谷歌方面的說法，Gemini Nano將率先在Pixel 8 Pro上落地，Gemini Pro則將從當地時間本周三開始支持Bard，而Gemini Ultra則會在明年年初向公眾大範圍開放。

當然，外界更關心的應該是Gemini的性能究竟如何，以及與GPT-4相比孰強孰弱。

根據谷歌方面公布的信息顯示，在32項基準測試中，Gemini在30個項目上都實現了「遙遙領先」，同時Gemini Ultra在MMLU（大規模多任務語言理解數據集）中的得分率更是高達90.0%，成為了大模型中首個超越人類專家的產品。對於目前大模型在評測中刷題蔚然成風的現象，谷歌也特意強調，「對於以前的SOTA模型評估使用不同的提示技術」，也就是Gemini並未針對性的刷題。

Gemini最大的亮點就是原生（native）多模態，谷歌口中的「anything to anything」也代表了Gemini和ChatGPT的本質區別。雖然兩者確實都實現了支持文本、圖像、音頻和視頻輸入，以及文本和圖片的輸出，但OpenAI的解決方案是在ChatGPT這個大模型（LLM）上不斷疊加多模態模塊，谷歌的Gemini則是從一開始就將各種模態的能力一同訓練，相當於一個是串聯、另一個是並聯。

比如在面對用戶輸入的同樣一張圖片，GPT-4的策略是用OCR技術分割圖片，獲得乾淨的字元圖像、再識別字元，並轉化為文本信息。而Gemini認知圖片的方式則更接近人類，就是綜合視覺、聽覺、語言來理解事物，這也是Gemini在谷歌展示的DEMO中，對於連續輸入的內容幾乎能即刻做出反應的關鍵。

值得一提的是，在Gemini技術報告中，谷歌方面表示其基於谷歌自家的張量處理單元（TPU）v4和v5e進行大規模訓練，這也就意味著即使脫離了英偉達的CUDA生態，不使用英偉達GPU，業界依然有能力訓練出性能不錯的大模型。而且隨著Gemini的發布，谷歌同時公布了專為訓練先進AI大模型的Cloud TPU v5p，等於說是明晃晃地要搶英偉達的蛋糕。

作為在過去一年幾乎壓得谷歌幾乎喘不過氣的產品，GPT-4也是此次展示Gemini性能的標靶。例如Gemini Ultra在推理、數學、代碼等文本處理能力的得分，就均高於GPT-4，在圖像、視頻、音頻等多模態能力上也壓倒了GPT-4。

但事實真的如此嗎？其實仔細觀察谷歌在視頻中展示的關於Gemini和GPT-4評測的表格和圖片會發現，其中似乎暗藏了玄機。

事實上，谷歌在對比中採用了被稱為「非對稱」的方式，例如在比拼MMLU測試集時，Gemini Ultra的得分率為90%、而GPT-4則是86.4%，但二者測試的方法卻截然不同。Gemini Ultra下方的CoT@32表明，它使用了思維鏈（CoT）技術，這也是目前大模型領域炙手可熱的一項技術，它在Prompt中除了任務的輸入和輸出外，還加入了推理的中間步驟，會使得大模型的性能度提升，而GPT-4下方的5-shot，則代表使用了Few-Shot Learning（少樣本學習）技術。

簡單來說，兩者的區別相當於是同樣參加一場考試，GPT-4的作答時間是1小時，Gemini Ultra則有一天時間。試想一下，如果高考的答題時間不是2小時、而是24小時，想必大家的成績都會更上一層樓。

除此之外，谷歌用未經過「AI對齊」(AI Alignment)的Gemini Ultra，來對比已經經過OpenAI對齊的公開版GPT-4。要知道，AI對齊要求AI的目標要與人類的價值觀和利益相對齊，使得其符合設計者的利益預期，不會產生意外的有害後果。

AI對齊概念的出現，其實是OpenAI等廠商為了合規而設計，它的副作用就會是導致大模型性能的下降，這一點在GPT-4、New Bing上已經有了明確的體現。換而言之，谷歌是用一個無法商業化的Gemini Ultra版本，來對比已經商業化的GPT-4，難免就有些勝之不武了。當然，谷歌選擇投機取巧也不難理解，畢竟在過去的一年時間裡，他們在AI領域確實承受著巨大的壓力。

作為AI賽道曾經的領導者，谷歌也被外界批評由於過分僵化和謹慎，從而讓其他公司搶佔了大模型的先機，以至於創始人謝爾蓋·布林都重新出山、協助搭建下一代AI模型。CEO皮查伊在面對媒體時更是不得不放狠話，「不管他們怎麼說，我們在AI領域不會輸」。更何況，精心籌備的Bard首秀即翻車，在整個2023年OpenAI、微軟、Meta各領風騷的情況下，唯獨谷歌幾乎沒有了聲音。