谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4

2023年12月07日12:15:20 財經 4437
谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

雷遞網 樂天 12月7日

美國科技巨頭谷歌今日宣布推出人工智能模型Gemini,並針對三種不同的尺寸優化了 Gemini 1.0:

Gemini Ultra——谷歌最大、最有能力的模型,適用於高度複雜的任務。

Gemini Pro——谷歌可擴展各種任務的最佳模型。

Gemini Nano——谷歌最高效的設備端任務模型。

谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

據谷歌稱,公司一直在嚴格測試Gemini模型並評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在大型語言模型 (LLM) 研發中使用的32個廣泛使用的學術基準中的 30 個上超過了當前最先進的結果。

Gemini Ultra的得分高達90%,是第一個在 MMLU(大規模多任務語言理解)上超越人類專家的模型,該模型結合了數學、物理、歷史、法律、醫學和倫理學等 57 個科目來測試 知識和解決問題的能力。

Gemini新的 MMLU 基準方法使 Gemini 能夠利用其推理能力在回答難題之前更仔細地思考,從而比僅使用第一印象有顯着改進。

谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

該圖表顯示了 Gemini Ultra 在常見文本基準測試中的性能與 GPT-4 的比較(在報告數字缺失的情況下計算的 API 數字)。Gemini 在文本和編碼等一系列基準測試中超越了最先進的性能。

Gemini Ultra還在新的MMMU 基準測試中取得 59.4% 的最先進分數,該基準測試由跨越不同領域、需要深思熟慮的推理的多模態任務組成。

根據谷歌測試的圖像基準,Gemini Ultra 的性能優於以前最先進的模型,無需從圖像中提取文本以進行進一步處理的對象字符識別 (OCR) 系統的幫助。這些基準凸顯了雙子座天生的多模態性,並表明了雙子座更複雜推理能力的早期跡象。

擅長複雜學科推理 能懂編程語言

Gemini 1.0 複雜的多模式推理功能可以幫助理解複雜的書面和視覺信息。這使得它在發現大量數據中難以辨別的知識方面具有獨特的能力。

Gemini 1.0 通過閱讀、過濾和理解信息從數十萬份文檔中提取見解的卓越能力將有助於在從科學到金融的許多領域以數字速度實現新的突破。

Gemini 1.0 經過訓練,可以同時識別和理解文本、圖像、音頻等,因此它可以更好地理解微妙的信息,並可以回答與複雜主題相關的問題。這使得它特別擅長解釋數學和物理等複雜學科的推理。

谷歌的第一個版本的 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++ 和 Go)的高質量代碼。它跨語言工作和推理複雜信息的能力使其成為世界領先的編碼基礎模型之一。

Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用於評估編碼任務性能的重要行業標準)和 Natural2Code(我們內部保留的數據集),該數據集使用作者生成的源而不是基於網絡的信息。

Gemini還可以用作更高級編碼系統的引擎。兩年前,谷歌推出 AlphaCode,這是第一個在編程競賽中達到競爭性能水平的人工智能代碼生成系統。

谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

使用Gemini 的專門版本,谷歌創建更先進的代碼生成系統 AlphaCode 2,它擅長解決超出編碼範圍、涉及複雜數學和理論計算機科學的競爭性編程問題。

Pixel 8 Pro將運行Gemini Nano

谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

谷歌還將Gemini引入Pixel。Pixel 8 Pro是第一款運行Gemini Nano的智能手機,它支持 Recorder 應用中的 Summarize等新功能,並從WhatsApp開始推出Gboard中的Smart Reply,明年還會推出更多應用。

在接下來的幾個月中,Gemini將出現在谷歌更多的產品和服務中,例如搜索、廣告、Chrome 和 Duet AI。

谷歌已經開始在搜索中試驗 Gemini,它使用戶的搜索生成體驗 (SGE) 更快,美國英語的延遲減少了 40%,同時質量也得到了提高。

谷歌和 Alphabet 首席執行官桑達爾·皮查伊 (Sundar Pichai)說,每一次技術變革都是推進科學發現、加速人類進步和改善生活的機會。

「我相信我們現在所看到的人工智能轉變將是我們一生中最深刻的轉變,遠遠大於之前向移動或網絡的轉變。人工智能有潛力為世界各地的人們創造從日常生活到非凡的機會。它將帶來新一波的創新和經濟進步,並以前所未有的規模推動知識、學習、創造力和生產力。」

谷歌AI大模型Gemini亮相:擅長複雜學科推理,懂編程語言 PK GPT-4 - 天天要聞

皮查伊說,「我們正與Gemini一起邁出下一步,這是我們迄今為止功能最強大、最通用的模型,在許多領先基準測試中都具有最先進性能。我們的第一個版本 Gemini 1.0 針對不同尺寸進行了優化:Ultra、Pro 和 Nano。」

Google DeepMind 首席執行官兼聯合創始人Demis Hassabis代表Gemini 團隊發言,稱長期以來,我們一直希望構建新一代人工智能模型,其靈感來自於人們理解世界和與世界互動的方式。人工智能感覺不太像一個智能軟件,而更像是有用且直觀的東西——一個專家幫助者或助手。

「今天,當我們推出 Gemini 時,我們離這一願景又近了一步,這是我們迄今為止構建的最強大、最通用的模型。」

Demis Hassabis稱,Gemini是整個Google團隊(包括Google Research的同事)大規模協作努力的成果。它是從頭開始構建的多模式,這意味着它可以概括和無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

「Gemini 也是我們迄今為止最靈活的模型 - 能夠在從數據中心到移動設備的所有設備上高效運行。其最先進的功能將顯著增強開發人員和企業客戶利用人工智能進行構建和擴展的方式。」

雷遞由媒體人雷建平創辦,若轉載請寫明來源。

財經分類資訊推薦

行長是一年不如一年了 - 天天要聞

行長是一年不如一年了

這兩天看了兩個銀行的新聞,一個是原白山江源農商行董事長董英直的邁凱倫跑車被拍賣,另一個是光大銀行鄭州緯二路支行員工席薇6年間打賞了男主播們6000多萬。 這讓大星想起了十幾年前的往事。當時,工商銀行安徽蚌埠的一個支行女行長向當地公安局自首,遷出了當地一個上億的詐騙案。 女行長詐騙的都是她支行里的大戶,方法...
從學習到領跑 天津信創產業在先行先試中「拔節」生長 - 天天要聞

從學習到領跑 天津信創產業在先行先試中「拔節」生長

「天津聚力攻堅關鍵領域核心技術,形成完整的信創產品鏈條,構建了自主可控、產研一體、軟硬協同的信創產業體系。」日前,在2025上合組織數字經濟論壇新聞發佈會上,天津市數據局局長鄧光華在介紹天津積極開展先行先試過程中取得的一系列成就,其中關於對信創產業發展的肯定令
市中區以賽為媒,奮力書寫產才融合新答卷 - 天天要聞

市中區以賽為媒,奮力書寫產才融合新答卷

智聚市中,賽創未來。6月29日,第七屆「創業齊魯·共贏未來」高層次人才創業大賽粵港澳大灣區賽區暨第八屆中國(濟南)新動能創新創業大賽深圳賽區路演在深圳成功舉辦,來自海內外的100餘個人才項目同台競技,紛紛秀出「高精尖」「新創意」「金點子」,
魯花集團更名,註冊資本翻倍 - 天天要聞

魯花集團更名,註冊資本翻倍

企查查顯示,6月30日,中國食用油龍頭企業山東魯花集團有限公司(下稱「魯花集團」)完成股改,公司名稱變更為山東魯花集團股份有限公司,註冊資本從約10.91億元增至20億元。本次變動還涉及人事調整,魯花集團3位監事辛旭峰、宮立明、宮兆海退出,
數說「新」變化|完成投資近900億元 前5月新疆重大項目建設按下「快進鍵」 - 天天要聞

數說「新」變化|完成投資近900億元 前5月新疆重大項目建設按下「快進鍵」

2025年,新疆通過強化用地、用林、環評等要素保障,優化審批流程,力促各項目實現實質性開工,為經濟高質量發展提供有力支撐。前5月,新疆重點項目投資情況如何?重大產業項目推進情況怎樣?近期,自治區發展改革委發佈相關數據。今天的《數說「新」變化》一起來看看。 監製:丁濤 統籌:王磊 策劃:紀洲 編輯:王東升 製圖...
MHMarkets邁匯:金銀鉑牛市前景明朗 - 天天要聞

MHMarkets邁匯:金銀鉑牛市前景明朗

MHMarkets邁匯觀察到,全球貴金屬市場正步入一輪結構性上行周期。根據世界銀行最新發佈的報告,在地緣風險升溫、貨幣政策模糊及避險需求增強的背景下,黃金、白銀與鉑金在2025至2026年料將持續強勢,貴金屬資產正重新成為機構與個人投資者配
美財長喊話中方:快將稀土出口量恢復到3個月前 - 天天要聞

美財長喊話中方:快將稀土出口量恢復到3個月前

美財長提了一個不情之請,想在稀土領域跟中方儘快翻篇,特朗普訪華前,美方想從中方這裡先拿到一份「見面禮」? 美國總統特朗普 進入7月後,美國又開始向中方喊話,希望加快稀土出口。根據....