12月6日-7日,2024 T-EDGE創新大會暨鈦媒體財經年會在北京市大興區舉辦。
12月7日上午T-EDGE 全球AI論壇:All-in On AI會議上,智譜CEO張鵬以「GLM 大模型與通用人工智慧之路」為主題,圍繞 AI 大模型發展與應用展開深入演講。
張鵬表示,AI 大模型並沒有進入到「平台期」或者進入「蕭條期」,實際有很多問題要做。而且,大模型的發展空間不僅是盯著簡單的語言生成,視覺、聽覺、運動、基礎的模態能力等各方面,多模態、推理和Agent等能力都在遵循著Scaling Law(尺度定律),發展潛力非常大。
在張鵬看來,大模型發展至今開始逐步具有上述人類與現實物理世界互動的能力:L1語言能力進程 80%、L2邏輯能力(多模態能力)60%、L3使用工具的能力進程 30%,甚至L4自我學習的能力也正在逐漸出現。
對於OpenAI最新發布的o1 Pro模式的推理模型,張鵬認為,滿血版o1再次將複雜問題求解的能力推上新台階,複雜推理的發展非常值得期待。
「瞄向AGI的路程還很長,有大量的任務等待我們做,大可不必那麼悲觀說在語言層面上碰到的(Scaling Law)停滯現象,我們就覺得AGI『完蛋』了。」張鵬指出,對於人類本身的 AI 能力是比較明確的,我們需要對照人類的智能能力去打造通用人工智慧(AGI)。
實際上,自2023年3月智譜 AI 推出千億開源基座對話模型ChatGLM系列以來,GLM大模型經歷四個大版本迭代,共發布了超過20款 AI 模型技術和產品。截至2023年底,智譜 AI 已擁有超過2000家生態合作夥伴、超過1000個大模型規模化應用,覆蓋傳媒、諮詢、消費、金融、新能源、互聯網、智能辦公等多個細分場景。
張鵬認為,如今的Agent可以做到像人一樣,理解界面、規劃任務、使用工具、完成任務,從而更聰明地代替人類行動。我們對於對於AI 內心所真正期待的是,AI 像人一樣,擁有各種各樣類型能力,而且都在水平線以上的綜合性AI能力,並且能夠像人一樣處理複雜任務,而不是單一任務,從而解答覆雜的問題。
展望未來,張鵬強調,隨著語言模型、多模態以及AI Agent等技術走向成熟,從整個技術演進方面來看,我們對此非常有信心,真正讓大模型的技術能夠走入現實世界,幫助大家解決更複雜的問題。同時,這些技術在成熟的過程當中,讓這些技術變成相應產品,創造更大的生產力價值,以及相應的市場回報。
「對於智譜來講,我們的目標永遠是讓『機器像人一樣思考』,並且讓機器服務人類。」張鵬在結尾表示。
(本文首發於鈦媒體App,作者|林志佳,編輯|胡潤峰)
以下是張鵬在鈦媒體2024T-EDGE上的演講實錄,經鈦媒體AGI整理:
非常榮幸能夠來到鈦媒體的年會現場,和大家進行分享。
最近關於AI、關於大模型的討論非常多,有不同的觀點進行激烈的碰撞,我最近會被很多人問這樣一個問題:AI未來發展的空間到底在哪裡。
下面,我們可以先看關於AI未來圖景的劃分。
從OpenAI對於AI的能力分級劃分可以看到,它把 AI 能力分5級。
在目前的1、2、3級,OpenAI現在已經取得非常不錯的成績,尤其在語言能力,已經達到人類最頂尖的專家級水平,這也正是大家所討論的,所謂Scaling Law見頂的領域,語言數據使用完,水平也沒有如預期的持續往上增長。
那麼,這是否意味著,AI 大模型進入到「平台期」或者進入「蕭條期」?其實並沒有,實際有很多問題要做。
如Level 2,人類水準的問題求解能力。實際上,複雜推理能力非常值得期待,也就是前天剛剛發布的滿血版o1,再次將複雜問題求解的能力推上新台階。大模型的發展空間不僅是盯著簡單的語言生成,或是回答這樣的小問題。它(非語言模型)的空間非常大。
而在Level 3,使用工具,讓AI能夠和物理世界、現實世界當中的各種工具和系統進行對接,進而產生更大的生產力效果,這也是非常重要的事情。
當然,未來還可以期待 AI 做自己的發明創造,像AlphaGo戰勝人類選手一樣,把AI用在科學的探索。以及未來AI如何像人類這樣的個體一樣,形成智體的群落進行自組織。
在 AGI 發展路徑上,我們智譜有自己的想法。前3級和OpenAI差不多,而Level 4、Level 5兩級的時候更多的想法。比如,如何實現類似像GPT-Zero,Alpha-Zero這樣的升級,以及如何利用 AI 的自學習能力拓展科學邊界,以及未知的世界。
但是,這裡面我們人類去做AGI也好,AI也好,唯一的參考系就是我們自己,就是人類本身。對於人類本身的能力,AI 能力是比較明確的,就是我們對照人類的智能能力去打造AGI。
這裡面我們做了一些統計和分析,當然很粗略。
比如,在書寫和語言理解方面,已經接近人類專家水平,甚至比人類專家更加有效。在視覺、聽覺、運動、基礎的模態能力等各方面,我們有了長足的進步。尤其近1年,從年初Sora多模態生成能力,到視頻生成能力,再到開源、閉源等方向,都在遵循著Scaling Law(尺度定律)。
工具的使用能力也是最近半年來說進展非常快的領域,從最早所謂的Function Call(函數調用)能力開始,進化到現在能夠使用手機、電腦幫助完成複雜的操作,取得非常快的進步。但我們依然覺得(AI 作用)不止如此,它不止能完成非常簡單的事情,發展空間非常大,更抽象的創新能力、和物理世界的機器人、設備進行交互的運動控制等,存在著大量空白(發掘)區域。
瞄向AGI的路程還很長,有大量的任務等待我們做,大可不必那麼悲觀說在語言層面上碰到的(Scaling Law)停滯現象,我們就覺得AGI「完蛋」了。
如果再把剛才那張圖再把它進行量化,按照階梯式一層層的往上推演,很明顯,Scaling Law還是沿著發展的階梯狀往「天花板」逼近,上面還有大把的空白空間。而且,這裡面也標註我們的進展,從最初的語言模型,到視覺模型,視覺理解、視覺生成,到聲音,到實時的交互,到邏輯的推理,以及o1,甚至到使用工具Agent能力,遠遠都不是讓我們停下來的理由,有非常多的事情等待著我們去做。
我們一直在對標著世界最前沿的技術做這件事。
當然,你問為什麼每項技術都對標它,而不是某項能力做到最好,或者做到極限,從而進行商業化。在智譜看來,這源自我們對於AGI的認知。
大家都知道,上一代的AI其實在某些單項能力上,比如說識別人臉、識別圖像,在限定範圍內它比人類做的好,它已經突破了人類的上限,但它為什麼沒有改變生產力的結構,改變生產關係,只是作為一種工具嵌入在很多的應用系統當中。我們思考過這個問題,在於我們所內心裡真正期待的是,AI 像人一樣,擁有著各種各樣類型的能力,而且都在水平線以上,並且能夠像人一樣處理複雜任務,而不是單一任務,永遠只能停留在工具層面,它起不到革命性、範式性的創新作用。
所以像我們常說的一個原理——「木桶原理」一樣,當你的能力存在明顯缺陷的時候,它並不足以產品革命性的範式變化,頂多又是另外一個更強力的鎚子而已。我們現在不再需要鎚子,我們需要的是更強大的東西。
今年終於借著8月新的基座模型GLM-4-Plus的發布,文本能力、圖像分析理解能力、視頻分析理解能力、語音模型等能力集齊之後,我們終於可以嘗試讓大模型、讓 AI 能力像人一樣,能夠面對現實世界當中的複雜任務。
不要小看你們在現場拿著手機,刷短視頻、在小紅書上刷日記等這樣操作,其實這都蘊含著人類各種各樣的能力,視覺能力、自然語言理解能力、操作能力、控制能力等。這就是我剛剛講到的,我們需要有這些一些完整的能力。
今年8月基座模型GLM-4-Plus上線,我們終於可以帶領世界最頂級的基座模型能力看齊,基本上前三這樣的水平。基於這樣的基座能力,我們演化出,如視覺生成能力,我們終於可以做到更高清、更真實,以假亂真。
剛才我看到開場的宣傳片,顯然大量運用視頻生成能力,我們可以期待,在明年鈦媒體年會上,我們看到的宣傳片90%上AI生成,而且各位在座的人不太能看出和真實場景的差別,現在已經做到非常好的效果。
剛才我們講到Level 3,如何讓模型能夠進入到現實世界,幫助我們使用手邊的現實工具,無論是手機、電腦,還是各種各樣的軟體系統,都需要適應人。在座各位也會面臨各種各樣的麻煩,蘋果手機也好,安卓手機也好,70-80%甚至更高比例的功能你不知道如何使用,可能一直到手機淘汰掉,你都不會用它,因為你根本不會為這些事情花費學習的時間。
因此,不能讓我們去遷就機器,一定是讓機器反過來理解我們的意圖,Agent就是做這樣的事情,讓AI來理解我們的需求,幫助我們使用工具,當然這中間還有決策和規劃的過程,它要有充分的理解能力、規劃和執行的能力,以及理解大家所使用的所有軟體和工具的能力。
從早期的漸入命令,字元交互,簡化到圖形化界面,甚至未來會演化到AI為核心的操作系統。
大家現在電腦、手機上使用的場景特別豐富,很多任務我們也只能剛幫助大家來做一部分的工作,我們期待能力持續的提升,能夠幫助大家做更多的事情,幫大家把簡單、重複、機械性的過程當中解放出來,大家有更多時間做更有意義的事情。
而從這件事裡面我們可以看到,這樣的進步來自於大模型本身的新技術突破,尤其在強化學習方面所帶來的智能體反思、自我學習,以及不斷自我提升的過程。這也是最近我回答大家關於「Scaling Law放緩」問題很重要的點在於,原來pre-train(預訓練)可能不能給我們帶來非常大的增益,接下來是什麼,可能就是在強化學習、自我學習層面(發力)。
我相信,未來Agent助手能夠實現更長的操作序列,更複雜任務的決策,幫助你們完成更複雜的任務,無論是生活還是工作層面。
最近智譜升級的更長操作序列Agent,也支持多個應用之間跨APP交互,像人裡面可以從一個APP裡面獲取信息,再回到另外的APP進行任務,再會到上個APP把結果拿回來,跨應用的協同也非常重要。剛才我們展示了,如何讓手機和PC進行聯動,進行隔空操作,包括虛擬屏幕分身參與會議,以及同時並行的任務處理。
我們希望,這樣的能力能像人一樣,真正使用這些軟體,並且完成複雜的任務。眼睛看是視覺能力,大腦的思考取決於理解、任務拆解和規劃能力,手動取決於識別和操作能力。未來,我們希望藉助這樣的能力,賦能操作系統,讓操作系統和大模型、AI深度融合,形成基於AI全新的底層操作系統。這是我們下一步想要做的事情。
從整個技術演進方面來看,我們對此非常有信心。隨著語言模型、多模態以及AI Agent等技術走向成熟,我們終於能夠集成一些能力,真正讓大模型的技術能夠走入現實世界,幫助大家解決更複雜、更難的一些問題。同時,這些技術在成熟的過程當中,讓這些技術變成相應產品,創造更大的生產力價值,以及相應的市場回報。
對於智譜來講,我們的目標永遠是AGI,永遠是讓機器像人一樣思考,並且讓機器服務人類,謝謝大家。