實測百度X1:看得懂腦筋急轉彎、秒解數理化難題,還會自主調用工具

智東西(公眾號:zhidxcom)

作者 |  程茜

編輯 |  漠影

文心一言發布兩周年,百度搞了件大事!

智東西3月16日報道,剛剛,百度文心大模型4.5和文心大模型x1兩款大模型上新,已上線文心一言官網並免費開放,比之前百度官宣的4月1日全面免費提前了半個月。

文心大模型x1是首個自主運用工具的深度思考模型,具備更強的理解、規劃、反思、進化能力。其在中文知識問答、文學創作、文稿寫作、日常對話、邏輯推理、複雜計算及工具調用等方面的表現更強。

文心大模型4.5是百度自研新一代原生多模態基礎大模型,在多個測試集上的測評表現已經超過gpt-4o。

該模型的能力可以用一個字「全」來概括,其圖片理解涵蓋照片、電影截圖、網路梗圖、漫畫、圖標等多種形態,也能理解音視頻中的場景、畫面、人物等特徵,並且在生成名人、物品等方面更具真實性。

對於原生多模態大模型,3月初,百度創始人、ceo李彥宏在人民網發表的署名文章就提到:「原生多模態大模型,打破之前先訓練單模態模型再拼接的方式,通過統一架構實現文本、圖像、音頻、視頻等多模態數據的‌原生級融合,實現對複雜世界的統一理解,這是邁向通用人工智慧(agi)的重要一步。」

目前,文心大模型4.5面向企業用戶和開發者開放,登錄百度智能雲千帆大模型平台即可調用api;文心大模型4.5、x1也將陸續上線百度搜索、文小言app等產品,文心大模型4.5將於6月30日起開源。

文心大模型4.5輸入價格為0.004元/千tokens,輸出價格為0.016元/千tokens;文心大模型x1也即將在千帆平台上線,輸入價格為0.002元/千tokens,輸出價格為0.008元/千tokens。

文心x1與文心4.5價格對比圖:

百度2024年財報顯示,文心大模型的日均調用量已經達到16.5億次的顯著成績,穩居國內大模型產業應用規模前列。此次伴隨著新模型的發布,其將進一步擴寬技術賦能深度與場景覆蓋廣度。

體驗地址:https://yiyan.baidu.com/

一、全能選手上線,擅長看圖說話、經典電車難題、多輪複雜交互

實踐出真知,先來看下百度文心大模型x1的實戰效果。

目前,x1已支持高級搜索、文檔問答、圖片理解、ai繪圖、代碼解釋器、網頁鏈接讀取、treemind樹圖、百度學術檢索、商業信息查詢、加盟信息查詢等多款工具。

我上傳了一張有山有水的風景圖,並詢問文心x1這是哪裡,模型就會調用圖片理解工具準確識別出地名。可以看到,文心x1在思考過程中完整呈現了其調用工具以及根據圖片元素進行判斷的諸多環節,並給出了準確答案——杭州西湖。

經典的電車難題,文心x1也可以給出全面的答案,可以看到其思考過程中首先明確了這是「經典的倫理困境問題」,然後通過理解這一背景和核心問題、分析不同倫理理論、權衡因素的過程,最後生成完整的答案。

面對經典的數理化難題「雞兔同籠」,x1不僅答案滿分,還在解題思路上自由發揮了一波。其在輸出結果中附上了兩種解題思路。

面對涉及到酒店住宿費用的計算難題,文心x1不僅給出了明確答案,並且輸出的結果,清晰簡潔,我可以一目了然題目計算過程中出現的邏輯漏洞。

在用戶的實際場景中,其需求往往更為複雜,需要滿足不同的限定條件,這也是大模型生成結果能滿足用戶需求的關鍵。我輸入的指令是「幫我生成一個為期三個月的減肥計劃」,此外,還給出了幾個限定:工作忙、周末時間寬鬆、對部分食物過敏等。

可以看出x1給出的生成結果中,其對應給出了符合我特定需求的食譜,如果遇到食物本身包含雞蛋、牛奶的,x1會在括弧中給出替代的方案。並且考慮到工作的情況,計劃表中還包含適宜在辦公室進行鍛煉的運動計劃。

在多輪對話中,我首先給出了比較模糊的需求:去新疆旅行的最佳時間、只有法定節假日可以去怎麼辦、哪個性價比最高,基於之前的輸入與輸出結果,文心x1準確定位了我的需求,從新疆不同季節的景色變化到不同假期的人流量變化等進行分析,最終給出了性價比最高且符合我特定需求的行程安排。

文心4.5的能力也不在話下,其既能理解文本、圖片、音視頻等多模態內容,還可以進行圖片生成、文本創作等,並完成輸入內容中的邏輯梳理等。

在圖片理解能力,我上傳了一張照片,圖中兩個人物並沒有清晰正臉,所以所以需要模型從整個畫面的構圖、場景等來判斷,文心4.5不僅清晰展現出了場景的具體特徵,還給出了電影名稱、相關人物以及場景在電影中的意義等。

文本生成中,文心4.5還可以針對不同平台的特點生成相對應文案,如短視頻平台的發布文案多為一句話概括、小紅書文案需要配合文字以及emoji表情,此外,其還可以生成對應的視頻腳本等。

我結合當下關注度較高的短視頻爽劇,讓文心4.5生成關於出身平凡主角隱藏驚人審視、頂級豪門雲集、爭奪商業帝國等元素的腳本。

生成結果中,文心4.5總共給出5個場景,涵蓋了鏡頭切換、旁白台詞、旁白語氣等諸多完整元素。

整體來看,文心4.5的跨模態理解能力、捕捉細節能力、推理邏輯的連貫性等方面表現實現了全面的提升。

二、從訓練提效、多模態理解生成到降低幻覺,百度核心技術攻堅

兩大模型的表現升級背後,是百度在核心技術方面的突破與深耕。

從技術層面看,更全面的深度思考模型文心x1背後有三大核心技術,遞進式強化學習訓練方法、基於思維鏈和行動鏈的端到端訓練、多元統一的獎勵系統。

基於應用遞進式強化學習方法,可以在創作、搜索、工具調用、推理等場景全面提升模型的綜合應用能力。思維鏈和行動鏈的端到端訓練可以針對深度搜索、工具調用等場景,根據結果反饋進行端到端的模型訓練,顯著提升訓練效果。

文心x1的訓練還建立了統一的獎勵系統,融合多種類型的獎勵機制,為模型訓練提供更加魯棒的反饋。

在此基礎上,文心x1可以準確理解用戶需求,並實現中文知識問答、文學創作、複雜計算、邏輯推理以及工具調用等多元化且強大的能力展現。

同時,作為原生多模態基礎大模型,文心4.5背後也有百度的獨特技術優勢加持,具體來看就是flashmask動態注意力掩碼 、多模態異構專家擴展技術、時空維度表徵壓縮技術、基於知識點的大規模數據構建技術、基於自反饋的post-training技術。

綜合來看,這四大技術的目的就是全方位提升大模型的多模態理解能力,以及降低大模型幻覺,這也是大模型當下支撐用戶實際應用、發揮更大價值的關鍵。

在提升模型能力方面,flashmask動態注意力掩碼可以有效提升大模型的長序列建模能力和訓練效率,優化長文本的處理能力和多輪交互表現;多模態異構專家擴展技術能解決因模態差異導致的信息提取和處理困難的問題,提升多模態融合能力。

在提升模型訓練效率方面,多模態大模型訓練中還有一大難題是,其圖片和視頻通常佔據大量的存儲空間,在傳輸過程中也需要耗費較多的時間和帶寬資源,時空維度表徵壓縮技術就可以對其語義表徵進行壓縮,提升多模態數據訓練效率。

此外,為了進一步提高模型學習效率,降低幻覺。一方面,文心4.5通過基於知識點的大規模數據構建技術,在知識分級採樣、數據壓縮與融合、稀缺知識點定向合成技術加持下,構建高知識密度預訓練數據;另一方面,基於自反饋的post-training技術,大模型可以融合多種評價方式的自反饋迭代式後訓練技術,提升預訓練模型對齊人類意圖能力。

這正是文心x1和文心4.5全方位性能得到提升的有力支撐。

三、四層技術體系全棧布局,百度已先人一步

將時間的標尺拉長,百度文心大模型的發展歷程清晰映照出國產大模型茁壯成長的堅實軌跡 。

2023年3月16日,文心一言正式發布並開啟邀請測試,首日超6.5萬家企業申請調用。

同年10月,文心大模型4.0發布,彼時達到了與gpt-4性能相當的水平。從去年6月至今,文心大模型4.0 turbo、性能強勁的輕量模型ernie speed pro和ernie lite pro到當下的文心大模型4.5、文心大模型x1。

如今,百度文心大模型家族持續壯大,成員數量穩步遞增,模型類型愈發多元。

到2024年,文心大模型的日均調用量達到16.5億,而2023年同期這一數字僅為5000萬次,增長達到33倍。

作為國產大模型的頭部玩家,百度已經基於大模型構建起了全棧技術布局,以支撐其上述業務體系的發展。

在當下,大模型的蓬勃發展正深刻改寫ai時代的演進軌跡。從技術架構來看,其技術棧大致可劃分為四個關鍵層級,自下而上依次為晶元層、框架層、模型層以及應用層,而百度也成為當下全球範圍內鮮少的在這四層都有所布局的公司之一。

也就是在晶元層,百度智能雲已經成功點亮自研萬卡集群崑崙芯三代萬卡集群,框架層飛槳文心開發者數量已經達到1808萬名,應用層百度已經基於大模型重構了百度搜索、百度文庫等多個國民級應用。

從更為具體的數據層面來看,百度近十年來的累計研發投入已經超過1800億元。

截至2023年12月,百度全球ai專利申請超過2.5萬件,國內ai專利申請量近1.9萬件,中國人工智慧專利申請量突破8000件,國內人工智慧專利授權率行業領先。

可以看出,百度在ai領域的研發與積累已經轉化為自身大模型研發的養料以及國內大模型產業發展的加速引擎,助推國內大模型產業發展在全球的競爭態勢中飛速前進。

結語:全球大模型產業競爭加劇,百度開啟國內賽道超車模式

當下,全球大模型產業發展的競爭態勢仍然激烈,不光是基礎模型的研發還是ai應用的規模化落地,都成為各家大模型廠商布局的關鍵。

一方面,基礎模型作為整個大模型產業的根基,其研發難度極高且至關重要;另一方面,一個優秀的基礎模型只有通過廣泛的應用落地,才能真正實現其商業價值和社會價值。

以百度為代表的國內大模型產業代表玩家,正在這一波全球的技術發展浪潮中發揮自己的獨特優勢,並逐漸在這一競爭浪潮之中佔據先機。