Jürgen回顧30年前舊作，稱其啟發了現今流行的很多概念

2022年10月18日13:41:18 熱門 1893

機器之心編輯部

現今流行的生成對抗網絡（GAN）只是對抗好奇心的一種特例？在近日 Jürgen Schmidhuber 發表的博客文章中，他重申了這樣一種說法。Jürgen 表示，他在 1990 年的一篇文章中詳細描述了基於控制器和世界模型這兩種循環神經網絡（RNN）的強化學習和規劃系統，其中還包含了現在 ML 領域廣為人知的多個概念。

2020 年最後一天，LSTM 發明人、深度學習元老 Jürgen Schmidhuber 發表博客文章，回顧了 30 年前其團隊發表的關於利用人工進行規劃和強化學習的研究工作。

他表示，其在 1990 年發表的文章《Making the World Differentiable: On Using Self-supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-stationary Environment》中（以下簡稱 FKI-126-90 報告）介紹了一些現在廣泛使用的概念，包括以循環神經網絡（RNN）作為世界模型進行規劃、高維獎勵信號（也作為神經控制器的輸入）、用於 RNN 的確定性策略梯度，以及神經網絡（NN）中兼具生成式和對抗性的人工好奇心和內在激勵。

FKI-126-90 報告地址：http://people.idsia.ch/~juergen/FKI-126-90ocr.pdf

在 2010 年代，隨着算力成本的降低，這些概念流行開來。2015 年以來，Jürgen 等人進行了更多擴展，以解決抽象概念空間中的規劃問題和如何學習思考（learning to think）。

此外，具有自適應循環世界模型的智能體甚至可以對意識（consciousness）和自我認識（self-awareness）進行簡單的解釋。

以下是 Jürgen Schmidhuber 的博客內容：

1990 年 2 月，我發表了 FKI-126-90 報告（11 月進行了修訂），介紹了後來在機器學習領域廣為人知的幾個概念。

這份報告描述了一個用於強化學習和規劃的系統，該系統基於兩種循環神經網絡（RNN）——控制器和世界模型。控制器嘗試在最初未知的環境中最大化累積預期獎勵，世界模型則學習預測控制器動作所帶來的結果。控制器可以利用世界模型通過 rollout 提前進行規劃，選擇能夠最大化預測累積獎勵的動作。在 Rich Sutton 提出 DYNA 之前，這個用於學習、規劃和反饋的集成架構就已經發表了。FKI-126-90 報告還引用了利用前饋神經網絡進行系統識別的工作。這一方法啟發了很多後續研究，不僅是在 1990-91 年間，近幾年也是如此。

1990 年的另一個創新是高維獎勵信號。傳統的 RL 聚焦於一維獎勵信號，但人類擁有數以百萬計的信息傳感器來感知不同類型的痛苦與快樂。據我所知，FKI-126-90 報告是第一篇聚焦多維、有向量值的痛苦和獎勵信號的 RL 論文，這些信號來自多個不同傳感器，累積值基於針對所有傳感器的預測得到，而不僅僅是單一的標量整體獎勵。比較一下後來被稱為 general value function 的函數。不同於以往的 adaptive critics，FKI-126-90 提出的信號是多維的、循環的。

此外，與傳統 RL 不同的是，這些獎勵信號還被用作控制器神經網絡學習的信息輸入，以執行能夠最大化累積獎勵的動作。這也與元學習有關。

這些技術能應用於現實世界嗎？答案是肯定的。我之前的博士後同事 Alexander Gloye-Förster 帶領柏林自由大學的 FU-Fighters 團隊，拿到了 2004 年 RoboCup 機械人世界盃速度方面的冠軍。幫助他們拿到冠軍的機械人就是利用神經網絡進行提前規劃，這與 FKI-126-90 報告提出的理念一致。

2005 年， Alexander 及其團隊還展示了如何利用這些概念打造自我修復機械人（self-healing robots）。他們使用連續自建模構建了第一個彈性機械人，該機械人可以在經歷某種意外損傷後自動復原。

FKI-126-90 報告還陳述了 RNN 確定性策略梯度的基礎。「Augmenting the Algorithm by Temporal Difference Methods」一節將基於動態規劃的時間差分法與基於梯度的世界預測模型相結合，用來計算獨立控制網絡的權重變化。二十多年後，DeepMind 使用了類似的變體。

最後，FKI-126-90 報告還通過對抗生成神經網絡引入了人工好奇心。在與世界交互的過程中，人類會學習預測自己行為的後果。同時，人類還有好奇心，會設計實驗來獲取新的數據，從而學到更多。為了構建有好奇心的人工智能體，FKI-126-90 報告和我的另一項研究《A Possibility for Implementing Curiosity and Boredom in Model-Building Neural Controllers》提出了一種新型具有內在動機的主動無監督或自監督學習方法。該方法基於 minimax 博弈，即其中一個神經網絡最小化目標函數，而另一個神經網絡最大化目標函數。現在，我把兩個無監督對抗神經網絡之間的對抗稱為「對抗人工好奇心」（Adversarial Artificial Curiosity），以將其與 1991 年以來出現的人工好奇心和內在動機變體區分開來。

對抗人工好奇心如何工作的呢？控制器 NN（概率性地）生成可能影響環境的輸出。世界模型 NN 預測環境對控制器輸出的反應。世界模型利用梯度下降最小化其誤差，因而成為更好的預測器。但在零和博弈中，控制器試圖找到最大化世界模型誤差的輸出，而這些輸出的損失是控制器的增益。所以，控制器被激發創造新的輸出或實驗，以生成世界模型覺得驚訝的數據，直到熟悉並最終厭煩這些數據。

也就是說，在 1990 年，我們已經提出了兼具生成式和對抗性的自監督神經網絡（這裡使用的是 2014 年後的術語），並針對靜態模式和模式序列以及 RL 的通用示例生成實驗輸出和新的數據。事實上，流行的生成對抗網絡（GNN）（2010-2014）是對抗好奇心的一種應用，其中環境根據控制器的當前輸出是否在給定集合中返回 1 或者 0。此外還需注意，對抗好奇心、GAN 和對抗 PM（Predictability Minimization，1991）與其他早期的對抗機器學習設置大不相同，它們既不包含無監督 NN 也沒有建模數據或使用梯度下降。

正如我自 1990 年以來頻繁提到的那樣，神經網絡的權重應被視為其自身的程式（program）。有人認為，深度 NN 的目的是學習觀測數據的有用內部表徵，甚至出現了關於學習表徵的國際學術會議 ICLR。但實際上，NN 學習的是根據輸入數據計算此類表徵的程式（映射的權重或參數）。典型 NN 的輸出對自身的程式是可微的。也就是說，簡單程式生成器可以計算程式空間中的方向，人們也可以在該空間中找到更好的程式。1989 年以來我的很多研究工作已經利用了這一事實。

FKI-126-90 報告中提出的控制器 / 模型（C/M）規劃器專註於簡單的逐毫秒規劃，試圖預測和規劃未來的每一個小細節。甚至於今天，這仍然是很多 RL 應用中的標準方法，如圍棋、國際象棋應用。然而，我 2015 年的論文《On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models》聚焦於抽象（例如層級）規劃和推理[PLAN4-5]。基於算法信息理論的指導，我描述了基於 RNN 的 AI (RNNAI) ，RNNAI 可以在無休止的任務序列上進行訓練，這些任務有些是使用者提供的，另一些是由 RNNAI 自身以一種好奇、好玩的方式發明的，以改進其基於 RNN 的世界模型。

與 FKI-126-90 報告中提出的系統不同，RNNAI [PLAN4]學習主動查詢其模型，以便進行抽象推理、規劃和決策，這些本質上是讓 RNNAI 學會思考 [PLAN4]。[PLAN4-5] 的思想可以應用到很多場景中。在這些場景中，一個類似 RNN 的系統利用另一個系統的算法信息。這些思想還解釋了像鏡像神經元 [PLAN4] 這樣的概念。

在最近與 David Ha（2018）[PLAN6]合著的論文中，我們提出了一個世界模型。該模型可以用一種無監督的方式進行快速訓練，以學習壓縮的時空表徵。將從世界模型中提取的特徵作為智能體的輸入，我們可以訓練一個非常緊湊、簡單的策略，用於解決待解決的問題。我們的模型在多個環境中實現了 SOTA 結果。

最後，所有這些與「意識」和「自我意識」這兩個看似難以捉摸的概念有什麼關係？我在 1991 年提出的第一台深度學習機器 [UN0-UN3] 模擬了意識的多個方面。它採用無監督學習和預測代碼來壓縮觀測序列。用「conscious chunker RNN」處理低級「subconscious automatiser RNN」出乎意料的事。chunker RNN 通過預測意外事件來學習「理解」它們。automatiserRNN 則採用 1991 年提出的神經知識蒸餾來壓縮和吸收 chunker RNN 之前「有意識」的見解和行為，從而使它們成為「潛意識」。

現在讓我們回顧一下上面討論的控制器與環境交互的預測性世界模型。該模型通過預測性編碼 [UN0-UN3][SNT] 對不斷增長的動作和觀察歷史進行有效的編碼，並且還會自動創建特徵層次，較低層次的神經元對應簡單的特徵檢測器（可能類似於哺乳動物大腦中發現的檢測器），較高層次的神經元通常對應更抽象的特徵，但必要的地方要細化。

與其他優秀的壓縮器一樣，世界模型將學習識別現有的內部數據結構所共有的規律，並為頻繁出現的觀測子序列生成原型編碼或緊湊的表示或符號（不一定是離散的），以縮小整體所需的存儲空間。具體來說，緊湊的自表示或自符號是數據壓縮過程中自然產生的副產品，因為在智能體的所有動作和感覺輸入中都有一個東西，那就是智能體本身。

為了通過預測性編碼有效地編碼整個數據歷史，智能體將通過創建某種內部子網絡來計算代表自身的神經激活模式[CATCH][FKI-126-90]。當這種表示被控制器的規劃機制（FKI-126-90 報告中提到的）或更加靈活的控制器查詢（2015 年的論文中提到的）所激活，智能體就會思考自身，意識到自身以及未來的可能，並試圖通過與環境的互動，創造一個痛苦最少、快樂最多的未來。這就是為什麼我一直聲稱我們三十年前就已經擁有了簡單、有意識、有自我覺知和情緒的人工智能體。

原文鏈接：http://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html#PLAN4