智譜CEO張鵬：不必對尺度定律放緩表達悲觀，瞄向AGI的路程還很長｜2024 T-EDGE

2024年12月09日17:33:03 科技 1587

12月6日-7日，2024 T-EDGE創新大會暨鈦媒體財經年會在北京市大興區舉辦。

12月7日上午T-EDGE 全球AI論壇：All-in On AI會議上，智譜CEO張鵬以「GLM 大模型與通用人工智慧之路」為主題，圍繞 AI 大模型發展與應用展開深入演講。

張鵬表示，AI 大模型並沒有進入到「平台期」或者進入「蕭條期」，實際有很多問題要做。而且，大模型的發展空間不僅是盯著簡單的語言生成，視覺、聽覺、運動、基礎的模態能力等各方面，多模態、推理和Agent等能力都在遵循著Scaling Law（尺度定律），發展潛力非常大。

在張鵬看來，大模型發展至今開始逐步具有上述人類與現實物理世界互動的能力：L1語言能力進程 80％、L2邏輯能力（多模態能力）60%、L3使用工具的能力進程 30％，甚至L4自我學習的能力也正在逐漸出現。

對於OpenAI最新發布的o1 Pro模式的推理模型，張鵬認為，滿血版o1再次將複雜問題求解的能力推上新台階，複雜推理的發展非常值得期待。

「瞄向AGI的路程還很長，有大量的任務等待我們做，大可不必那麼悲觀說在語言層面上碰到的（Scaling Law）停滯現象，我們就覺得AGI『完蛋』了。」張鵬指出，對於人類本身的 AI 能力是比較明確的，我們需要對照人類的智能能力去打造通用人工智慧（AGI）。

實際上，自2023年3月智譜 AI 推出千億開源基座對話模型ChatGLM系列以來，GLM大模型經歷四個大版本迭代，共發布了超過20款 AI 模型技術和產品。截至2023年底，智譜 AI 已擁有超過2000家生態合作夥伴、超過1000個大模型規模化應用，覆蓋傳媒、諮詢、消費、金融、新能源、互聯網、智能辦公等多個細分場景。

張鵬認為，如今的Agent可以做到像人一樣，理解界面、規劃任務、使用工具、完成任務，從而更聰明地代替人類行動。我們對於對於AI 內心所真正期待的是，AI 像人一樣，擁有各種各樣類型能力，而且都在水平線以上的綜合性AI能力，並且能夠像人一樣處理複雜任務，而不是單一任務，從而解答覆雜的問題。

展望未來，張鵬強調，隨著語言模型、多模態以及AI Agent等技術走向成熟，從整個技術演進方面來看，我們對此非常有信心，真正讓大模型的技術能夠走入現實世界，幫助大家解決更複雜的問題。同時，這些技術在成熟的過程當中，讓這些技術變成相應產品，創造更大的生產力價值，以及相應的市場回報。

「對於智譜來講，我們的目標永遠是讓『機器像人一樣思考』，並且讓機器服務人類。」張鵬在結尾表示。

（本文首發於鈦媒體App，作者｜林志佳，編輯｜胡潤峰）

以下是張鵬在鈦媒體2024T-EDGE上的演講實錄，經鈦媒體AGI整理：

非常榮幸能夠來到鈦媒體的年會現場，和大家進行分享。

最近關於AI、關於大模型的討論非常多，有不同的觀點進行激烈的碰撞，我最近會被很多人問這樣一個問題：AI未來發展的空間到底在哪裡。

下面，我們可以先看關於AI未來圖景的劃分。

從OpenAI對於AI的能力分級劃分可以看到，它把 AI 能力分5級。

在目前的1、2、3級，OpenAI現在已經取得非常不錯的成績，尤其在語言能力，已經達到人類最頂尖的專家級水平，這也正是大家所討論的，所謂Scaling Law見頂的領域，語言數據使用完，水平也沒有如預期的持續往上增長。

那麼，這是否意味著，AI 大模型進入到「平台期」或者進入「蕭條期」？其實並沒有，實際有很多問題要做。

如Level 2，人類水準的問題求解能力。實際上，複雜推理能力非常值得期待，也就是前天剛剛發布的滿血版o1，再次將複雜問題求解的能力推上新台階。大模型的發展空間不僅是盯著簡單的語言生成，或是回答這樣的小問題。它（非語言模型）的空間非常大。

而在Level 3，使用工具，讓AI能夠和物理世界、現實世界當中的各種工具和系統進行對接，進而產生更大的生產力效果，這也是非常重要的事情。

當然，未來還可以期待 AI 做自己的發明創造，像AlphaGo戰勝人類選手一樣，把AI用在科學的探索。以及未來AI如何像人類這樣的個體一樣，形成智體的群落進行自組織。

在 AGI 發展路徑上，我們智譜有自己的想法。前3級和OpenAI差不多，而Level 4、Level 5兩級的時候更多的想法。比如，如何實現類似像GPT-Zero，Alpha-Zero這樣的升級，以及如何利用 AI 的自學習能力拓展科學邊界，以及未知的世界。

但是，這裡面我們人類去做AGI也好，AI也好，唯一的參考系就是我們自己，就是人類本身。對於人類本身的能力，AI 能力是比較明確的，就是我們對照人類的智能能力去打造AGI。

這裡面我們做了一些統計和分析，當然很粗略。

比如，在書寫和語言理解方面，已經接近人類專家水平，甚至比人類專家更加有效。在視覺、聽覺、運動、基礎的模態能力等各方面，我們有了長足的進步。尤其近1年，從年初Sora多模態生成能力，到視頻生成能力，再到開源、閉源等方向，都在遵循著Scaling Law（尺度定律）。

工具的使用能力也是最近半年來說進展非常快的領域，從最早所謂的Function Call（函數調用）能力開始，進化到現在能夠使用手機、電腦幫助完成複雜的操作，取得非常快的進步。但我們依然覺得（AI 作用）不止如此，它不止能完成非常簡單的事情，發展空間非常大，更抽象的創新能力、和物理世界的機器人、設備進行交互的運動控制等，存在著大量空白（發掘）區域。

瞄向AGI的路程還很長，有大量的任務等待我們做，大可不必那麼悲觀說在語言層面上碰到的（Scaling Law）停滯現象，我們就覺得AGI「完蛋」了。

如果再把剛才那張圖再把它進行量化，按照階梯式一層層的往上推演，很明顯，Scaling Law還是沿著發展的階梯狀往「天花板」逼近，上面還有大把的空白空間。而且，這裡面也標註我們的進展，從最初的語言模型，到視覺模型，視覺理解、視覺生成，到聲音，到實時的交互，到邏輯的推理，以及o1，甚至到使用工具Agent能力，遠遠都不是讓我們停下來的理由，有非常多的事情等待著我們去做。

我們一直在對標著世界最前沿的技術做這件事。

當然，你問為什麼每項技術都對標它，而不是某項能力做到最好，或者做到極限，從而進行商業化。在智譜看來，這源自我們對於AGI的認知。

大家都知道，上一代的AI其實在某些單項能力上，比如說識別人臉、識別圖像，在限定範圍內它比人類做的好，它已經突破了人類的上限，但它為什麼沒有改變生產力的結構，改變生產關係，只是作為一種工具嵌入在很多的應用系統當中。我們思考過這個問題，在於我們所內心裡真正期待的是，AI 像人一樣，擁有著各種各樣類型的能力，而且都在水平線以上，並且能夠像人一樣處理複雜任務，而不是單一任務，永遠只能停留在工具層面，它起不到革命性、範式性的創新作用。

所以像我們常說的一個原理——「木桶原理」一樣，當你的能力存在明顯缺陷的時候，它並不足以產品革命性的範式變化，頂多又是另外一個更強力的鎚子而已。我們現在不再需要鎚子，我們需要的是更強大的東西。

今年終於借著8月新的基座模型GLM-4-Plus的發布，文本能力、圖像分析理解能力、視頻分析理解能力、語音模型等能力集齊之後，我們終於可以嘗試讓大模型、讓 AI 能力像人一樣，能夠面對現實世界當中的複雜任務。

不要小看你們在現場拿著手機，刷短視頻、在小紅書上刷日記等這樣操作，其實這都蘊含著人類各種各樣的能力，視覺能力、自然語言理解能力、操作能力、控制能力等。這就是我剛剛講到的，我們需要有這些一些完整的能力。

今年8月基座模型GLM-4-Plus上線，我們終於可以帶領世界最頂級的基座模型能力看齊，基本上前三這樣的水平。基於這樣的基座能力，我們演化出，如視覺生成能力，我們終於可以做到更高清、更真實，以假亂真。

剛才我看到開場的宣傳片，顯然大量運用視頻生成能力，我們可以期待，在明年鈦媒體年會上，我們看到的宣傳片90%上AI生成，而且各位在座的人不太能看出和真實場景的差別，現在已經做到非常好的效果。

剛才我們講到Level 3，如何讓模型能夠進入到現實世界，幫助我們使用手邊的現實工具，無論是手機、電腦，還是各種各樣的軟體系統，都需要適應人。在座各位也會面臨各種各樣的麻煩，蘋果手機也好，安卓手機也好，70-80%甚至更高比例的功能你不知道如何使用，可能一直到手機淘汰掉，你都不會用它，因為你根本不會為這些事情花費學習的時間。

因此，不能讓我們去遷就機器，一定是讓機器反過來理解我們的意圖，Agent就是做這樣的事情，讓AI來理解我們的需求，幫助我們使用工具，當然這中間還有決策和規劃的過程，它要有充分的理解能力、規劃和執行的能力，以及理解大家所使用的所有軟體和工具的能力。

從早期的漸入命令，字元交互，簡化到圖形化界面，甚至未來會演化到AI為核心的操作系統。

大家現在電腦、手機上使用的場景特別豐富，很多任務我們也只能剛幫助大家來做一部分的工作，我們期待能力持續的提升，能夠幫助大家做更多的事情，幫大家把簡單、重複、機械性的過程當中解放出來，大家有更多時間做更有意義的事情。

而從這件事裡面我們可以看到，這樣的進步來自於大模型本身的新技術突破，尤其在強化學習方面所帶來的智能體反思、自我學習，以及不斷自我提升的過程。這也是最近我回答大家關於「Scaling Law放緩」問題很重要的點在於，原來pre-train（預訓練）可能不能給我們帶來非常大的增益，接下來是什麼，可能就是在強化學習、自我學習層面（發力）。

我相信，未來Agent助手能夠實現更長的操作序列，更複雜任務的決策，幫助你們完成更複雜的任務，無論是生活還是工作層面。

最近智譜升級的更長操作序列Agent，也支持多個應用之間跨APP交互，像人裡面可以從一個APP裡面獲取信息，再回到另外的APP進行任務，再會到上個APP把結果拿回來，跨應用的協同也非常重要。剛才我們展示了，如何讓手機和PC進行聯動，進行隔空操作，包括虛擬屏幕分身參與會議，以及同時並行的任務處理。

我們希望，這樣的能力能像人一樣，真正使用這些軟體，並且完成複雜的任務。眼睛看是視覺能力，大腦的思考取決於理解、任務拆解和規劃能力，手動取決於識別和操作能力。未來，我們希望藉助這樣的能力，賦能操作系統，讓操作系統和大模型、AI深度融合，形成基於AI全新的底層操作系統。這是我們下一步想要做的事情。

從整個技術演進方面來看，我們對此非常有信心。隨著語言模型、多模態以及AI Agent等技術走向成熟，我們終於能夠集成一些能力，真正讓大模型的技術能夠走入現實世界，幫助大家解決更複雜、更難的一些問題。同時，這些技術在成熟的過程當中，讓這些技術變成相應產品，創造更大的生產力價值，以及相應的市場回報。

對於智譜來講，我們的目標永遠是AGI，永遠是讓機器像人一樣思考，並且讓機器服務人類，謝謝大家。