Yann LeCun：大模型只是在操縱文字和圖像

2022年06月30日23:27:21 科技 1463

大約一年半前，Yann Le Cun（楊立昆）意識到他的想法是錯誤的。

他是 Meta 公司人工智慧實驗室的首席科學家，也是世界上最有影響力的人工智慧研究人員之一。他一直試圖通過訓練神經網路來預測在日常事件的視頻片段中接下來會發生什麼，從而讓機器掌握關於世界如何運作的常識。但是，逐個像素地對未來幀進行預測實在是太複雜了。他碰壁了。

現在，經過幾個月的努力，他找到了缺失的東西，並對下一代人工智慧有了一個大膽的新的設想。在一份與《麻省理工學院技術評論》分享的文件草案中，LeCun 勾勒出了一種方法，他認為這種方法有朝一日會為機器提供它們導航世界所需的常識。對 LeCun 來說，這些提議可能是構建具有像人類一樣的推理和規劃能力的機器的第一步——許多人稱之為人工通用智能，或通用人工智慧（AGI，Artificial general intelligence ）。

他還遠離了當今機器學習領域最熱門的趨勢，振興了一些過時的舊觀念。但他的願景遠非全面；事實上，它所提出的問題可能多於它的答案。正如 LeCun 自己指出的那樣，最大的問題在於他不知道如何構建他所描述的內容。新方法的核心是一個神經網路，它可以學習從不同的細節層次上觀察世界。這個網路放棄了對像素完美預測的追求，而將只關注場景中與當前任務相關的那些特徵。

建議將這個核心網路與另一個稱為配置器的核心網路配對，後者決定了需要什麼級別的細節，並相應地調整整個系統。

來說，AGI 將成為我們與未來科技互動的一部分。他的僱主 Meta 公司正在大力推動虛擬現實元宇宙的發展，他的願景也受其影響。他說，10 年或 15 年後，人們口袋裡將不再有智能手機，而是自帶虛擬助手的增強現實眼鏡，（虛擬助手）將引導人們的日常生活。他說：「為了讓這些東西對我們最有用，他們基本上必須或多或少擁有人類水平的智力。」

蒙特利爾大學的人工智慧研究員、米拉-魁北克研究所的科學主任約書亞·本吉奧（Yoshua Bengio）說：「Yann 談論這些想法已經有一段時間了。」

「但能在一個大的場景里整合這些是很好的。」本吉奧認為 LeCun 提出了正確的研究方向。

他還認為，LeCun 願意拿出這樣一份答案並不完善的的文件是非常好的。他說，這是一項研究計劃，而不是一套完整的結果。

「人們在私下裡談論這些事情，但通常不會公開分享。」本吉奧說，「這是有風險的。」

一個常識性問題

對人工智慧的思考已有近 40 年了。2018 年，他與本吉奧和傑弗里·辛頓（Geoffrey Hinton）共同獲得了計算機最高獎圖靈獎，以表彰他在深度學習方面的開創性工作。他說：「讓機器表現得像人類和動物一樣，一直是我一生的追求。」

認為動物的大腦運行著一種模擬世界的方式，他稱之為環境模型。這是動物（包括人類）在嬰兒時期學會的對周圍情況做出正確猜測的方式。

嬰兒在出生後的頭幾個月里，通過觀察世界來獲取基本知識。看到一個掉落的球落下幾次，就足以讓孩子知道重力是如何工作的。

「常識」是對這種直覺推理的統稱。它包括了對簡單物理學的掌握：例如，知道世界是三維的，知道物體在離開視野時並不會真正消失。

它使我們能夠預測幾秒鐘後一顆彈跳的球或一輛飛馳的自行車所在的位置。它幫助我們把不完整的信息連接起來：如果我們聽到廚房傳來金屬撞擊聲，我們可以據此推測有人掉了鍋——因為我們知道什麼東西會發出這種聲音，以及它們何時會發出這種聲音。

簡而言之，常識告訴我們哪些事件是可能的，什麼是不可能的，哪些事件比其他事件更有可能發生。它讓我們可以預見行動的後果，並制定計劃——而忽略不相關的細節。

但是，向機器傳授常識是很困難的。目前的神經網路，仍需要向它們展示數千上萬的例子，才能實現這樣的模式。

在很多方面，常識相當於預測接下來會發生什麼的能力。「這是智能的本質，」LeCun 說。這就是為什麼他和其他一些研究人員一直在使用視頻片段來訓練他們的模型。

但現有的機器學習技術要求模型能準確地預測下一幀將會發生什麼，並逐像素生成畫面。LeCun 說，想像你拿起一支筆，然後放手。

常識告訴你，筆會落下，但你不會知道它最終所處的確切位置。預測這一點需要計算一些高深的物理方程式。

這就是為什麼 LeCun 現在正試圖訓練一種這樣的神經網路：預測筆會落下，但不具體到如何落下。他認為這種訓練過的網路相當於動物所依賴的環境模型。

神秘的成分

LeCun 說，他已經建立了這個環境模型的早期版本，可以進行基本的物體識別。他現在正在努力訓練它來進行預測。但他說，配置器應該如何工作仍然是一個謎。將該神經網路想像成整個系統的控制器。它將決定環境模型在任何給定時間應該做出什麼樣的預測，以及它應該關注什麼樣的細節以使這些預測成為可能，並根據需要調整環境模型。

LeCun 確信需要像配置器這樣的東西，但他不知道如何去訓練一個神經網路來完成這項工作。他說：「我們需要想出一個好的配方來實現它，但我們還沒有那個配方。」

在 LeCun 的願景中，環境模型和配置器是更大系統中的兩個關鍵部分，這被他稱為認知架構，比如能夠主動感知世界的模型，以及採用獎勵機制來不斷探索和改進AI行為的模型。

LeCun 說，每個神經網路都大致類似於大腦的某些部分。例如，配置器和環境模型旨在複製前額葉皮層的功能。動機模型對應於杏仁核的某些功能，等等。

認知結構的概念，特別是那些受大腦啟發的架構，已經存在了幾十年。LeCun 的許多關於使用不同細節程度的模型進行預測的想法也是如此。

但是，當深度學習成為人工智慧的主導方法時，許多這些舊觀念就過時了。他說：「從事人工智慧研究的人已經有點忘記了這一點。」

他所做的是採用並復興這些舊的想法，提出可以將它們與深度學習相結合的方法。對 LeCun 來說，重新審視這些過時的想法是至關重要的，因為他認為現代人工智慧的兩種主流方法都是死胡同。

說到構建通用人工智慧，有兩個主要陣營。在一個陣營中，許多研究人員認為，像 OpenAI 的 GPT-3 和 DALL-E 這樣的大型語言或圖像製作模型的顯著成功表明，我們所需要做的就是建立更大更多的模型。

另一個陣營則是強化學習的擁躉，這種人工智慧技術會獎勵特定行為，使神經網路通過試錯來學習。這是 DeepMind 用來訓練 AlphaZero 等遊戲性 AI 的方法。

這種說法認為，正確的獎勵機制下，強化學習最終會實現更多的通用智能。

對此他則不以為然：「我完全不相信這種認為只要擴大當前的大型語言模型，最終就會出現人類水平的人工智慧的想法，一秒鐘也不信。」他說，這些大型模型只是在操縱文字和圖像。

他們沒有對世界的直接經驗。他同樣對強化學習持懷疑態度，即便是簡單的任務，它也需要大量的數據來訓練模型以完成。「我認為這根本沒法工作，」LeCun 說。

DeepMind 的大衛·西爾弗（David Silver）領導了 AlphaZero 的工作，也是強化學習的忠實擁躉，他不同意這一評價，但贊成 LeCun 的整體願景。他說：「研究一個環境模型的表現形式和學習模式是一個令人興奮的新方向。

聖達菲研究所的人工智慧研究員梅勒妮·米切爾（Melanie Mitchell）也很高興地看到了一種全新的方法。她說：「我們真的從未看到過深度學習社區出現這麼多這樣的想法。」她也同意 LeCun 的觀點，即大型語言模型不代表全部。她說：「它們缺乏記憶和世界的內部模型，而這些實際上非常重要。」

」然而，谷歌大腦（Google Brain）的研究員娜塔莎·傑奎斯（Natasha Jaques）認為，語言模型仍然應該發揮作用。LeCun 的建議中完全缺少語言，這一點很奇怪，她說：「我們知道大型語言模型非常有效，並且吸收了大量人類知識。」

傑奎斯致力於如何讓人工智慧相互分享信息和能力，她指出，人類不一定要有直接的經驗才能了解一件事。我們可以僅僅通過被告知一些事情來改變我們的行為，比如不要碰熱鍋。「如果沒有語言，我如何更新 Yann 所提出的環境模型？」她問道。

還有另一個問題。如果它們成功了，LeCun 的想法將創造出一項強大的、像互聯網一樣具有變革性的技術。然而，他的提案並沒有討論如何控制他的模型的行為和動機，或者由誰來控制它們。

蒙特利爾人工智慧倫理研究所的創始人、波士頓諮詢集團的人工智慧專家及負責人阿比謝克·古普塔（Abhishek Gupta）說，這是一個出乎意料的失察。

古普塔說：「我們應該更多地考慮人工智慧如何在社會中發揮良好作用，而這需要考慮道德行為等等。」

然而傑奎斯指出，LeCun 想法，而不是實際的應用。米切爾也說：「這種智能不太可能在短期內達到人類水平的智力。

也會同意這點。他的目的是播下新方法的種子，並希望其他人能在此基礎上繼續發展。「這需要很多人付出大量的努力。」他說，「我提出這個想法是因為我認為這就是最終要走的路。」至少，他想讓人們相信，大型語言模型和強化學習並不是唯一的出路。「I hate to see people wasting their time,」 he says.「我不願意看到人們浪費時間。」他說。

-End-

原文：
https://www.technologyreview.com/2022/06/24/1054817/yann-lecun-bold-new-vision-future-ai-deep-learning-meta/