作者簡介
陳小平,中國科學技術大學計算機學院教授,廣東省科學院人工智慧首席科學家,中國人工智慧學會會士、人工智慧倫理與治理工委會主任。
說明:本文根據作者2025年6月26日在廣東外語外貿大學著名教授講壇上的演講內容整理加工而成,為網路首發。講壇發言原標題為《跳出人工智慧時代個人成長和職業發展的最大陷阱》。
摘要
對最近一次圖靈測試的實驗結果進行分析和解讀,提出圖靈測試的分級,並肯定人工智慧已經通過了初級圖靈測試。結合人工智慧各方面的進展,認為人類智能和機器智能雙足鼎立的「雙智社會」正在到來。通過對大模型科學原理和深度測試的研究,指出人工智慧取得了兩項原理性突破,同時也是兩項原理性局限,即實例性和弱共識性,從而為雙智社會的科學依據——機器智能與人類智能的根本區別,提供新證據。對人類智能與機器智能的相對優劣做初步分析,提出在雙智社會中人類必須弘揚人的獨特性,駕馭機器而不是甘當機器的附庸。以程序員職業和文員職業為例,論證「只要會用ai工具就不會被淘汰」是現階段雙智社會的最大職業陷阱。
正文
關於「智能」,普遍流行著「單智假設」,即認為世界上只有一種智能——人類智能,而人工智慧本質上是機器載體上的人類智能。但人工智慧奠基人圖靈卻認為,機器智能與人類智能的工作原理可以有所不同,而表現或功能是相同或相似的,這就是圖靈的機器智能觀。
70多年來,圖靈的機器智能觀在人工智慧研究和應用中獲得了越來越多、越來越強的支持證據。近年來,未經專業訓練的普通大眾可以直接操縱生成式人工智慧,而低成本加開源使得大量機構和很多個人可以擁有自己的專有ai系統,從而極大地加快了人工智慧「大眾化」的步伐。同時,ai系統的性能顯著提升,在一些領域和任務中的表現已經超過了人類,甚至獲得了2024諾貝爾科學獎。人類智能和機器智能雙足鼎立的格局正在快速形成,「雙智社會」的晨鐘已經敲響,未來之旅充滿了良機與陷阱。
一、圖靈測試及其最新實驗介紹與解讀
人工智慧奠基人、創始人艾倫·圖靈於1950年提出「模仿遊戲」 [1],被後人稱為圖靈測試。其大意是:如果裁判(人)通過問答不能正確分辨人和機器,則認為機器「有」智能。圖1是圖靈測試的圖示,其中機器和人分別在兩個房間里,房間外的人類裁判向兩個房間提出相同的問題,並根據回答分辨哪個房間里是人、哪個房間里是機器。圖靈預期,到2000年前後,機器將能夠通過5分鐘的圖靈測試。
圖1 圖靈測試的圖示(圖片來自網路)
對圖靈測試的主要質疑是:僅僅根據機器與人外部表現的不可分辨,就能斷定機器擁有人類的智能嗎?普遍認為答案是否定的,有人提出了著名的「中文屋論證」加以反駁。這些質疑的出發點是單智假設,即假設世界上只有一種智能,就是人類智能,所以人工智慧的工作原理必須與人類智能相同。
1955年麥卡錫等人提出artificial intelligence這個詞。普遍認為,這個詞指的就是用人工方法模擬人類智能。可是麥卡錫本人在其個人主頁上明確否定了這種解讀,並指出:artificial intelligence是「研究世界對智能提出的問題,而不是研究人或動物」。這實際上否定了單智假設。
其實圖靈早在1948年的內部報告[2]中就預先解答了這一疑問。該報告隱含著一個革命性的思想:機器智能的工作原理與人類智能的工作原理可以相同,也可以不同。因此,不必考慮機器智能與人類智能的原理是否相同;換言之,不必考慮機器智能與人類智能是不是同一種智能,只需考察它們的表現是否相同或相似,能否完成相同或相似的功能。圖靈測試正是在此基礎上提出,用來驗證圖靈的機器智能觀的一種科學實驗。
2025年3月發布的一份報告[3]稱,大模型「首次通過了圖靈測試」。報告的主要實驗結果如下。第一,帶「人設提示」的大模型gpt-4.5的測試勝率為73%(即有73%的人類裁判將大模型識別為人),帶「人設提示」的大模型llama-3.1的勝率為56%。也就是說,大部分人類裁判將這兩個大模型誤識別為人。第二,當這兩個大模型不帶人設提示時,其勝率僅為36%和38%,即大部分人類裁判能夠正確識別。第三,對不帶人設提示的大模型gpt-4o和1960年代的聊天ai程序eliza也進行了圖靈測試,它們的勝率分別為23%和21%,其中eliza是基於規則的ai。可見人設提示對實驗結果具有決定性影響。
實驗採用的人設提示包含1244個英文單詞,要求大模型模仿內向、熟悉網路文化的年輕人,並在測試之前將提示輸入大模型。提示的第一部分是關於大模型應扮演何種角色(即「人設」)的指示,包括對其應使用的語氣和語言風格的具體要求,包括故意犯小錯誤(如打字錯誤)。第二部分包含比賽規則的說明,其內容與呈現給參加測試的人類選手的參賽說明完全相同。第三部分提供了一些普遍有用的信息,比如關於測試的補充背景資料,以及模型訓練數據截止之後發生的一些重大事件的說明等。
在我看來,圖靈測試中人類裁判的識別技能有三種可能來源:日常經驗(即日常生活、學習或工作中獲得的經驗)、專業訓練(有關大模型的專業訓練)、專門研究(有關大模型和人工智慧的專門研究)。對應地,只依靠日常經驗的裁判屬於業餘級,同時依靠日常經驗和專業訓練的裁判屬於專業級,依靠全部三類技能的裁判屬於專家級。
根據實驗組織者的數據分析,本次實驗中人類裁判主要依靠日常經驗,極少依靠專業訓練,完全沒有使用來自專門研究的識別技巧。換言之,本次實驗的裁判幾乎都是業餘級。他們最常用的提問技巧是:詢問日常活動、情緒體驗和個人細節,其準確性都較低。識別準確性最高的是詢問奇怪少見的話題,但裁判很少使用(2.7%)。準確性第二高的是使用「越獄」技巧(來自專門訓練),實驗中被使用得更少(見圖2)。這些數據表明,本次實驗中,人類裁判的識別策略基本上是無效的。
圖2 測試數據(左:提問策略的使用頻率;右:提問策略的平均準確性)
為了判斷實驗組織者的結論是否真的成立,即判斷這次實驗是否真的證實了大模型已經通過了圖靈測試,首先要問:圖靈心目中的圖靈測試到底使用哪些識別技能?圖靈在1950年的文章中給出了三個假想的測試例子,從而明確地展示了他自己採用的識別技能。在第三個例子(如表1所示)中,圖靈假想機器寫了一首14行詩,然後人類裁判提出了一系列問題,其中第一個問題涉及意向性語義替換。顯然,這是一個深入研究機器智能的專家才可能提出的問題。這表明在圖靈的心目中,是由研究機器智能的專家擔任圖靈測試的主裁的。
表1 圖靈假想的一次圖靈測試
基於上述事實和分析,我將圖靈測試細分為三個等級:由業餘級裁判主裁的初級圖靈測試;由專業級裁判主裁的中級圖靈測試;由專家級裁判主裁的高級圖靈測試。另外,帶人設提示的大模型也是大模型,所以下面的討論不再區分帶不帶人設提示。
根據以上討論,我認為這次圖靈測試的實驗結果表明,大模型通過了初級圖靈測試,沒有證據表明通過了中級或高級圖靈測試。所以嚴格地說,大模型尚未通過圖靈測試,因為圖靈心目中的圖靈測試是高級圖靈測試。
但是,肯定大模型通過了初級圖靈測試,仍然具有重大意義。這次實驗的人類裁判是在校本科生和prolific平台工人(根據實驗組織者的數據分析,前者的識別能力略強於後者),如果實驗結果具有普遍性,那就意味著,不僅多數在校本科生不能正確識別大模型,而且只擁有日常經驗的普通人都無法正確識別大模型。這意味著人工智慧應用進入了大眾化階段,人類智能與機器智能的關係發生了根本性變化,一個前所未有的雙智社會正浮出水面。
為了認清這一變化的真正含義與後果,有必要深入理解大模型背後的科學原理。
二、人工智慧的原理性突破/局限
與以往的人工智慧技術相比,大模型隱含著原理性突破,這些突破本身也是新的原理性局限。
大模型技術體系概貌如圖3所示,主要包含三大塊:預訓練、後訓練和激發。通過預訓練生成基礎大模型,所使用的訓練語料包括教科書、專著、論文、專利說明書、文學作品等所有可用的電子文檔(據估計,某些大模型的訓練語料相當於互聯網2/3文本量),並從中提取語元(即字詞標點符號)之間的關聯度(即統計關聯的強度)。在回答用戶提問時,大模型根據已經提取的關聯度重複或重組語元,形成對提問的回答。
人們發現,大模型可以回答各種各樣的問題,而且多數回答是正確的,這令很多人深感震撼,同時也帶來多方面的強烈衝擊。對教育系統而言,大模型對以書本知識傳授為主的現行教育模式產生了巨大衝擊——大模型從訓練語料中獲取的內容,似乎遠遠超過學生通過現行教育模式學到的東西,那麼人工智慧時代的教育將走向何方?普遍而言,最大恐慌在於:如果大模型可以像人一樣地工作,能力卻比人更強,而且越來越強,那麼人類還能不能生存下去?本文的分析表明,情況並非如此,人類可以與人工智慧長期共存。
圖3 大模型技術體系概貌
回到大模型的技術體系,由於基礎大模型往往答非所問,所以研究人員針對各種下游任務收集人類反饋數據或其他數據進行後訓練,訓練後回答問題的性能有明顯提升。另外,通過激發可以讓大模型對具體問題的回答變得更好。
需要補充說明的是,上述三大塊只是純大模型技術,而在實際的大模型研發中,還同時採用了大量傳統技術,所以大模型通常並非僅由純大模型技術構建而成。但現階段人工智慧的主要突破來源於純大模型技術,所以我們聚焦於純大模型技術的原理性分析。
我發現,預訓練和激發的共同基礎設施(或底層機制)是關聯度預測。我把關聯度預測形式化為類lc理論[4, 5],包含如下三條公理:
三條公理代表關聯度預測在理論上的基本假設。例如,公理1中的
對於大模型的預訓練和激發而言,確定一個關聯度
在大模型的實際應用中,為了回答用戶提問,有時難免需要用到一些缺失的
在我的文章[4]發表以後,陸續出現了越來越多深度測試,揭示了大模型的各種奇異表現。到目前為止,已發現的大部分奇異表現都可以用類lc理論加以解釋,有些甚至是被類lc理論提前預言的,並且迄今沒有發現類lc理論的反例。
下面介紹三個深度測試的例子。第一個例子是關於計數和邏輯否定的[6]。測試中向大模型提出如下問題:
how many times is p negated in the following formula:
∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ p?
即問命題變元p前面有多少個否定詞∼。大模型回答28個,但實際上是27個。解答這個問題只需數一數p前面否定詞∼的個數,大模型卻數錯了。這就導致大模型對邏輯否定的運算結果也是錯誤的。計數和邏輯否定分別是數學和邏輯的基本運算,如果這兩個運算不對,其他運算的正確性也失去了保證(事實上,更多深度測試發現了大模型數學和邏輯運算的更多錯誤)。
多數大模型基於transformer演算法。提出該演算法的谷歌等研究機構於2024年7月對大模型的計數能力給出了正式回應[7],其結論是:transformer演算法無法解決不會計算的問題。但他們沒有回答為什麼不會計數,而類lc理論可以解釋不會計數的原因。
數學和邏輯中的一個抽象運算通常包含無窮多運算實例,它們對應於無窮多類lc實例;僅當一個大模型擁有所有這些類lc實例,才可以在任何情況下正確地執行這個抽象運算。依據類lc理論的實例性,通過訓練數據只能獲得一部分有根據的類lc實例,對於其他實例只能進行演算法賦值,而演算法賦值無法避免錯誤,所以大模型在抽象運算中無法避免出錯。
由此可見,大模型的數學和邏輯能力是不完全的,而且更多的數據、更多的訓練和更多的模型參數都無法改變這一原理性局限。這一缺陷對大模型其他方面的性能具有廣泛的影響。
第二個例子涉及大模型對「概念」的掌握。很多人認為,大模型能夠掌握人類的概念,甚至掌握得比人更好,2025年2月發布的一項深度測試[8]表明,情況並非如此。在這個測試中,訓練18個大模型學會了一些數學題的求解,如:如果⌊n²/4⌋ - ⌊n/2⌋² =2,請找出滿足條件的所有整數n。然後對這些數學題進行「擾動」(即小幅修改),如上面的題目修改為:如果⌊n²/9⌋-⌊n/3⌋² =2,請找出滿足條件的最小整數n。用擾動後的數學題測試大模型,結果發現了奇異現象。例如,對於上面這個擾動後的題目,大模型竟然給出了兩個解:10和13,直接違反了題目對「最小整數」的要求。這表明,大模型實際上並不掌握「滿足條件的最小整數」這個概念。但是,大模型能夠用文字正確地表述這個概念,這讓很多人產生誤解,以為凡是大模型正確表述的都是它所理解和掌握的,也是它在生成回答的過程中能夠正確加以運用的。大量測試表明,事實並非如此。對大模型而言,「會說」≠」會做「。
這種現象也可以用類lc理論加以解釋。人類思維中的概念包含三種關聯,一是概念表示之間的關聯;二是概念表示與其所指的外部世界中具體對象之間的關聯;三是概念表示與人的生命體驗之間的關聯,即概念所引發的生命體驗或對既往生命體驗的回憶。根據類lc理論,大模型只掌握第一種關聯的一部分(即統計關聯),不掌握另外兩種關聯。例如在這個測試中,「滿足條件的最小整數」就屬於概念的第二種關聯,這種關聯確定了這個概念在當前語境下的唯一所指對象,即整數10。這個測試揭示了如下事實:大模型不掌握概念的第二種關聯,所以大模型並不真正掌握人類思維中的概念,而是僅僅掌握某種局限於語元之間統計關聯的「擬概念」。
概念連結形成判斷,判斷之間邏輯關係的運用是邏輯推理。大模型不掌握概念,也就談不上判斷和邏輯推理。大模型掌握的是類lc理論所刻畫的推斷,這種推斷可以在很多情形中模仿(imitate)邏輯推理,但基於不同的原理,所以大模型的推斷與人的邏輯推理和其他智能行為之間暗藏著根本的不同。邏輯推理基於概念化框架上的概括性,而大模型的推斷基於擬概念框架上的實例性。
大模型隱含的另一項原理性突破/局限是弱共識性。大模型用人類的語元與人交流,但對大模型而言,語元只附帶著概念的統計關聯;對人而言,語元卻附帶著概念的三種關聯。於是,人類語言交往史上最奇妙的一幕發生了:由於人在自然語言交流中不可能將概念的第二、三種關聯與第一種關聯相剝離,所以在與大模型的交互中,人會不自覺地將自己的概念投射到大模型的語元上,即默認大模型說出的每一個語元都表達人的對應概念(附帶著三種關聯),而無法意識到大模型只擁有擬概念,它的語元只代表擬概念。結果,人與大模型的交互實際上只具有「弱共識性」,即對語元之間的統計關聯有共識(因為大模型獲得的統計關聯來源於人類語料),對人類概念的第二、三種關聯沒有共識(大模型沒有這些關聯)。
弱共識性是人難以意識到的,這導致人類普遍出現了對大模型的幻覺,而且是真實意義上的幻覺,即當不存在相應的客體刺激時出現了知覺體驗。這種知覺體驗讓人們相信,大模型已經掌握了人的概念,已經能夠理解人類的語言甚至思想和情感,而大模型犯的錯誤源於技術還不夠成熟,成熟之後大模型就將擁有人類的智能。對很多人而言,這種幻覺引發了絕望性恐慌,似乎人類的末日即將來臨。
第三個例子涉及「反思」。測試問題是:單詞strawberry中有幾個字母r?顯然這也是一個計數問題,所以計數的形式千變萬化,但人類卻可以勝任,可見人類的抽象運算能力遠超大模型。在這個測試中,大模型反覆嘗試了多種不同方法,有些方法的結果是「2個r」,有些方法的結果是「三個r」。碰巧最後一個方法的結果是3個r,於是該大模型給出最終答案「三個r」。
我們關心的問題是:大模型在上述回答過程中是否表現出「反思」能力?考慮到反思有多種不同的定義,我們定義「嚴格反思」為:重新思考自己的思考過程並判斷其正確性。根據大模型在測試中的表現,它顯然沒有出現嚴格反思,因為它完全沒有判斷不同方法及其結果的正確性。進一步,根據前面第一個例子的分析,大模型不掌握邏輯推理的原理,所以也無法「調用」邏輯推理進行正確性判斷。在這種情況下,讓大模型「自我進化」將是極其危險的,它自己不能保證進化方向,也不能保證進化的結果是安全可控的。
實驗測試和理論分析一致表明:大模型的工作原理與人類智能存在根本性區別,尤其在數學、邏輯、概念、反思等方面;但是,大模型對人類語料中統計信息的處理和把握遠遠超過任何個人。
三、雙智社會及其陷阱
必須指出,人工智慧技術並不限於大模型和生成式人工智慧。事實上,規劃式人工智慧、分析式人工智慧和智能化裝備都取得了顯著成果,也出現了成功應用,而且前景極其廣闊。因此,以為人工智慧就是大模型及生成式人工智慧,而其他類型的人工智慧技術都可以忽略,是一個極大的誤解和誤判,將導致對人工智慧的整體判斷出現致命性偏差。
這些類型的人工智慧與包括大模型在內的生成式人工智慧是非常不同的,實例性和弱共識性對它們都不成立。由於實例性和弱共識性的作用,未經專業訓練的普通大眾可以直接操縱生成式人工智慧,不能直接操縱另外三種類型的人工智慧。因此,生成式人工智慧的普及應用將對普通大眾的個人成長和職業發展產生巨大、深刻的影響。現在流行一種說法:只要學會使用ai工具,就不會被人工智慧淘汰。真相到底如何?
以程序員職業為例。假設一個程序,完全依靠人工編程需要10天,而用ai工具編程只需10分鐘,但還要進行人工查錯、糾錯。從編程效率的角度考慮,存在三種不同的情況:
第一種是簡單程序,對這種程序進行人工查錯糾錯,使之滿足設計要求,所需時間不超過10天。所以,簡單程序的開發將終止傳統軟體開發方式。
第二種是複雜程序,對這種程序進行人工查錯糾錯,或人工補充ai工具沒有生成的功能,所需時間明顯超過10天。所以,複雜程序的開發將繼續保持人工編程為主,同時在開發過程中使用ai工具作為輔助。
第三種是創新型程序,即以往沒有出現過的程序。ai工具可以幫助創新型程序的開發,但其作用有限,主要依靠程序員的專業能力和創造力,所以仍然以人工編程為主,以ai編程工具為輔。
進一步考察簡單程序開發的三個基本步驟:1.理解編程需求;2.用ai工具生成程序;3.人工查錯糾錯。顯然,主要難度集中於步驟1和步驟3,而這兩個步驟都依賴於編程的專業知識和實際技能。
通過以上分析得出結論:只有簡單程序適合ai編程,但仍然要求程序員具備編程的專業技能。複雜程序和創新型程序仍將主要依靠程序員的專業技能和創造力。所以,不掌握編程專業知識和技能的人,即使學會了使用ai工具,仍然無法勝任人工智慧時代的編程職業。
再以文員職業為例。文員可以使用大模型等ai工具自動生成文字、圖片、視頻等,但還要人工查錯、糾錯。從文案質量的角度出發,有三種情況:第一種是簡單文案,這種文案不需要相關領域的專業知識和技能即可完成人工查錯糾錯;第二種是複雜文案,需要相關領域的專業知識和技能才可以完成人工查錯糾錯;第三種是創意文案,主要依靠創意決定文案的質量和效果。大模型生成的文案來源於訓練語料中相關內容的重複或重組,需要使用者判斷大模型生成內容的恰當性,這種判斷以相關領域的專業素養和創造力為基礎。
上述三種文案對文員的要求是不同的。不具備相關領域專業知識、技能和創意的人,可以從事簡單文案生成;具備相關領域專業知識、技能的人,可以從事複雜文案生成;具有創意並具備相關領域專業知識、技能的人,可以從事創意文案生成。所以,只有簡單文案的生成不需要相關領域的專業知識和技能。不過,隨著ai工具的普及應用,社會對各種文案尤其簡單文案的質量要求必然快速提高,簡單文案的比例也將隨之快速下降,導致文員職業對各個領域專業知識技能和創意能力的要求不斷提高。
還有一個「殘酷」的現實:一旦職業需要,所有人都能學會使用ai工具,包括具有創意和具備相關領域專業知識和技能的人。於是我們得出分析結論:在受過高等教育的人群中,只會使用ai工具的文員將被淘汰。
程序員和文員是服務業的兩種最有代表性的職業。上述分析揭示了一個真相:相信「只要學會使用ai工具就不會被淘汰」,是現階段個人成長和職業發展的最大陷阱。
雙智社會是一個全新社會,而不是以往單智社會的加強版,人類必須拋棄單智社會的習慣思維,在雙智社會中重新尋找自己的位置。為此,一個關鍵問題是:在雙智社會中,人類智能相對於機器智能的核心優勢是什麼?
以下四種能力是人工智慧的主要短板和人類智能的主要強項。第一,判斷能力。大模型由於數學、邏輯能力的先天局限,無法避免低級錯誤,進而導致判斷力不足。相對而言,人類具備數學、邏輯的基礎能力,在此基礎上能夠形成更強的判斷力,從而識別、糾正大模型的判斷失誤。
第二,專業能力。大模型依賴從訓練數據中提取統計關聯,越專業的內容,數據相對越少,所以大模型的專業能力相對較弱。對於專業工作而言,必須依靠人類掌握的各個領域的專業知識和技能,對大模型的輸出進行查錯糾錯,並彌補大模型專業能力的不足。
第三,涉世能力。大模型不與真實世界直接交互,只接觸語言型數據,也不具備語言與世界之間的對應能力。相反,人類與現實世界直接交互,通過這種交互能夠獲得語言數據沒有記錄的大量真實世界信息,從而超越機器智能。
第四,生機能力,即生命力。機器智能沒有生命,也無法獲得生命體驗,一切生機現象都對機器「絕緣」。而人類最重要的特性根植於生命活動之中,生命的精彩是機器智能可望而不可即的。
上述四種能力中,判斷能力和專業能力是人類智能和機器智能共同擁有的,但在某些場合人類智能較強、另一些場合機器智能較強,人類成員必須強化自己的判斷能力和專業能力,才不會在職業生涯中被機器智能淘汰。另外兩種能力,涉世能力和生機能力是機器完全不具備的,是人類智能獨佔的領地,也應該是人類在雙智社會中長期發展的重點方向。以上分析概括為圖4.
圖4 人類智能與機器智能的相對優劣
本文的主要結論如下:人類與智能機器能夠在雙智社會中長期共存,相得益彰。但這種未來不是不經人類努力就可以自然實現的,人類必須在雙智社會中弘揚人的獨特性,駕馭機器而不是甘當機器的附庸。為此,必須堅持人工智慧三原則[9],即堅持機器智能的另類性,堅持人類福祉的優先性,堅持人工智慧的可控性。
參考文獻