谷歌大模型,千呼萬喚始出來。
當地時間12月6日,谷歌正式殺入人工智能大模型領域,谷歌CEO桑達爾・皮查伊(Sundar Pichai)在一篇博客中宣布了谷歌大模型Gemini 1.0正式上線。
“現在,我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今為止最強大、最通用的模型,它在許多領先的基準測試中都展現出了最先進的性能。” 皮查伊在博客中寫道。

(來源:谷歌)
據介紹,谷歌Gemini 從一開始就被創建為多模態模型。這意味着它可以歸納併流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
Gemini也是谷歌迄今為止規模最大、能力最強以及最靈活的人工智能模型,從數據中心到移動設備,它能在所有設備上高效地運行。
為了實現在所有設備上運行,谷歌針對三種不同的尺寸對第一代模型 Gemini 1.0 進行了優化,並發布了三個版本,分別是 Ultra、Pro 和 Nano:
○Gemini Ultra — 規模最大且功能最強大的模型,適用於高度複雜的任務。
○Gemini Pro — 適用於各種任務的最佳模型。
○Gemini Nano — 端側設備上最高效的模型。

(來源:谷歌)
從今天開始,Gemini也將陸續登陸谷歌產品,比如其聊天機器人Bard將使用 Gemini Pro 的微調版本來進行更高級的推理、規劃、理解等任務。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區提供服務,但目前僅支持英語,未來有望支持新的語言和地區。
谷歌表示,Gemini是其人工智能發展過程中的一座重要里程碑,也標誌着谷歌邁進新紀元的開始,其將繼續快速創新,並以負責任的方式不斷提升模型能力。
全面超越GPT-4?
自OpenAI於2022年底發布ChatGPT以來,人工智能領域就開啟了“大模型之戰”,科技巨頭和初創公司紛紛下場,都希望在新一輪熱潮中搶佔先機。這場激烈的競爭持續至今,大模型和產品的性能是最受人關注的重中之重。“師出名門”的Gemini當然也不會落下。
在性能比拼中,谷歌將Gemini的主要目標設定成了GPT-4(和GPT-4V),對於那些GPT-4不支持的任務,谷歌則選擇了目前水平最先進的模型(SOTA model)。
據介紹,從自然圖像、音頻和視頻理解到數學推理,在被大模型研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra (最大尺寸版本)的性能有 30 項都超過了目前最先進的水平。

圖 | 文本任務,谷歌展示Gemini Ultra的性能(來源:谷歌)

圖 | 多模態任務,谷歌展示Gemini Ultra的性能(來源:谷歌)
在大規模多任務語言理解 (MMLU,Massive Multitask Language Understanding)測試中,Gemini Ultra 的得分率高達 90.0%,是第一個超過人類專家的模型。MMLU 綜合使用了數學、物理、歷史、法律、醫學和倫理等 57 個科目,可用於測試模型對於人類世界的知識儲備和解決問題的能力。
在新的大規模多學科多模態理解( MMMU,Massive Multi-discipline Multimodal Understanding )基準測試中,Gemini Ultra 也取得了59.4% 的優異成績,該基準測試由橫跨不同領域、需要仔細推理的多模態任務組成。(MMMU基準測試介紹及網站:https://mmmu-benchmark.github.io/)
在圖像基準測試中,Gemini Ultra 在不使用對象字符識別系統來提取圖像中的文本進行下一步處理的情況下,表現優於現有最好的模型。
領先的性能得益於Gemini的原生多模態屬性。谷歌表示,Gemini 1.0 具有複雜的多模態推理能力,可幫助理解複雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。
“它還擁有通過閱讀、過濾以及理解信息,從數十萬份文件中提取見解的卓越能力,將有助於在從科學到金融等多個領域以數字化速度實現新的突破。”谷歌在博客中寫道。
此外,Gemini還具備高級編程能力,可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼,還能夠跨語言工作並對複雜信息進行推理。
谷歌表示,Gemini Ultra 在多個編碼基準測試中表現出色,包括HumanEval(用於評估編碼任務性能的重要行業標準)和 Natural2Code(谷歌內部使用的數據集),使用作者生成的信息作為來源,而不是基於網絡的信息。
Gemini 還可用作更高級編碼系統的引擎。利用Gemini的專門版本,谷歌創建了更先進的代碼生成系統 AlphaCode 2,該系統擅長解決那些不僅需要編碼能力、也需要複雜數學和理論計算機科學知識的競賽性編程問題。
數十億人生活方式或被改變
在訓練方法上,谷歌使用了自家的硬件張量處理單元(TPUs,Tensor Processing Units)對Gemini 1.0進行了大規模訓練。在 TPU 上,Gemini 的運行速度明顯快於早期規模更小、性能更弱的模型。
與此同時,谷歌還將發布名為TPU v5p的新一代TPU,其訓練大型語言模型的速度比上一代 TPU v4 快 2.8 倍。

圖 | Google 數據中心的 Cloud TPU v5p 人工智能加速器超級計算機(來源:谷歌)
大模型普遍存在偏見和輸出有毒內容等問題,開發者會通過設置安全護欄等措施來應對。在這方面,谷歌表示Gemini 擁有迄今為止谷歌所有人工智能模型中最全面的安全評估,包括偏見和毒性評估。
谷歌博客寫道:“我們對網絡攻擊、說服力和自主性等潛在風險領域進行了創新性的研究,並應用了 Google Research 一流的對抗性測試技術,幫助我們在部署 Gemini 之前檢測關鍵的安全問題。”
不過根據以往用戶使用大模型的經歷,人們總能找到各種方法來突破開發者設下的防護網,實現“越獄”。因此,Gemini在實際應用中的表現還需觀望。
除了開頭提到的Bard,Gemini還將被部署在谷歌Pixel系列手機上,以及其他谷歌產品線,包括搜索、廣告、Chrome瀏覽器等等。安卓開發者還可以通過 AICore(安卓14 中提供的新系統功能)使用 Gemini Nano進行構建。
值得注意的是,性能最強的Gemini Ultra目前尚未部署。谷歌正在對它進行大規模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,並在其被廣泛應用前通過微調和人類反饋強化學習進一步完善模型。
在模型的完善過程中,谷歌將向部分客戶、開發者、合作夥伴以及安全和責任專家提供 Gemini Ultra,以供其進行早期試驗和提供反饋。谷歌預計在2024年初向開發者和企業客戶提供該模型。
看得出來,谷歌對Gemini寄予了厚望,其表示:“我們對人工智能賦能的世界所帶來的驚人可能性感到興奮——這是一個創新的未來,它將增強創造力、擴展知識、推進科學並改變世界各地數十億人的生活和工作方式。”
參考資料: