如何通過結構化智能體完成物理構造任務?| 技術頭條

2022年10月18日13:39:16 熱門 1345

作者 | Victor Bapst, Alvaro Sanchez-Gonzalez,Carl Doersch, Kimberly L. Stachenfel

譯者 | Linstancy

編輯 | 一一

出品 | AI 科技大本營(ID:rgznai100)

摘要

物理構造 (physical construction) 是根據物理動力學原理構造帶有一些功能的物體的能力,這是人類智能的基礎。在這篇論文中,受積木遊戲的啟發,研究者們介紹了一系列具有挑戰性的物理構造任務,如匹配目標配置、堆疊和附加積木以便連接物體,並創建類似於 shelters 的目標結構等。

隨後,作者進一步介紹如何通過深度強化學習的智能體來完成這一系列的物理構造任務。實驗結果表明,相比於那些使用較少結構化表徵的策略,使用結構化表徵 (如物體和場景圖)和結構化策略(如目標中心動作) 的智能體能夠實現更好的任務表現。當更大的場景目標(通常超過訓練時所使用的場景)需要使用推理時 ,結構化智能體有著更佳的泛化表現。

此外,在大部分的物理構造問題上,相比那些無模型的智能體 (model-free agent),通過蒙特卡洛搜索法 (Monte-Carlo Tree Search) 進行模型規劃的智能體 (model-based agent) 也能取得更顯著的表現。總的來說,對於智能體而言,將結構化表徵和推理與強大的學習相結合,是使其擁有豐富直觀的物理,場景理解和規劃能力的關鍵。

簡介

現實世界中有許多建築物,如堡壘、金字塔、空間工作站等。而對於這些物理構造物,AI 智能體能實現嗎,這也是本研究所要解決的問題,探索學習並解決這一系列任務的方法。

所謂的物理構造問題,涉及物理動力學知識,在約束條件下構造多個元素以實現具有豐富功能的目標。下圖 1 是模擬一套物理施工任務的流程,這與小孩玩積木類似,需要通過堆疊和疊加多個積木來連接成具有各種功能性的物體。例如,一個任務需要在障礙物周圍堆疊塊來連接目標物,而另一項任務需要建造 shelters 來掩護的目標塊,並保持其處於乾燥的環境。這些任務都體現了現實世界在建造施工時會碰到的挑戰:即強調問題的解決及其功能性,而不是簡單地複製某種給定的配置以用於新環境。這反映了人類在施工建造過程中的預見性和目的性,與人類智能密切關聯。

如何通過結構化智能體完成物理構造任務?| 技術頭條 - 天天要聞

圖1 物理構造任務。

在所有任務中,深藍色物體是常規塊,淺藍色塊是粘性塊,紅色物體是不能觸摸的障礙物,灰色圓圈表示粘在一起的塊之間的點。黑線表示地板,用於將下面的塊分離出來。

(a) 剪影任務 (Silhouette):智能體通過堆疊塊來匹配目標塊 (描繪為淺綠色塊)。

(b) 連接任務:智能體通過堆疊塊來將藍色的小目標連接到地板。

(c) 遮擋任務:智能體堆疊塊從上方遮擋障礙物。

(d) 遮擋困難任務:與遮擋任務類似,但關鍵是此時智能體只能移動有限的塊。

儘管傳統的 AI 技術已經廣泛用於物理推理研究,但使用深度學習方法解決物理構造任務的研究仍需要進一步探索。本研究旨在探索現代人工智慧體在物理構造中的應用,主要的貢獻有:

(1) 使用包括向量、序列、圖像和圖形等結構化表徵和場景。

(2) 使用絕對或目標中心坐標表示連續和離散的動作。

(3) 通過深度 Q-learning 的無模型學習 (model-free learning) 或 actor-critic learning。

(4) 通過蒙特卡洛搜索 (MTCS) 進行規劃。

物理構造任務

這裡使用的模擬任務環境是連續的,並且由程序 Unity 和 Box2D 物理引擎生成的 2D 世界。每個時期都包含不可移動的障礙物、目標物體和地面,以及可移動、可拾取放置的矩形塊。

每個時期的終止條件包括:

(1) 當一個可移動塊接觸到障礙物,或當它被放置在一個障礙物重疊位置時。

(2) 當超過最大行動次數時。

(3) 達到任務所特定的終止條件時,每個任務的特定條件如下述。

  • 剪影任務 (Silhouette task):如圖1a,智能體必須移動矩形塊並將其與場景中的目標塊重疊,同時避免接觸到障礙物。當所有目標塊具有超過90%的重疊時認為該任務完成終止。
  • 連接任務:如圖1b,智能體必須將矩形塊堆疊到三個不同的位置,以便與地面連接,同時避免與障礙物在同層內排列。當所有的目標塊都連接地面時,認為該任務完成。
  • 遮擋任務:如圖1c,智能體必須構建一個 shelter 來遮擋所有的障礙物,且不接觸它們。當超過99%的障礙物表面被遮擋時,則認為該任務完成。
  • 遮擋困難任務:如圖1d,與遮擋任務相似,這裡智能體同樣需要構建一個 shelter 來遮擋障礙物。但此時需要更長遠的規劃,因為可移動的塊是有限的,且障礙物的分布更密集,成本更高,粘性較低。因此,該任務結合了以上三種任務的限制,其終止條件與遮擋任務一致。

智能體

對於智能體的狀態和表現,該如何進行監測和衡量?在這裡提供了幾種方法和指標來觀察智能體的建造狀態、內部表示、學習演算法和動作策略等,如下圖2所示:

如何通過結構化智能體完成物理構造任務?| 技術頭條 - 天天要聞

圖2 所有智能體結構


觀察形式 (observation format)

每個建造任務都將提供目標的狀態或圖像,這兩種形式對於智能體而言是很重要的,最終希望的是智能體能夠使用一些符號輸入,如計算機輔助表徵或是感測器的原始輸入等。

編碼器 (encoder)

使用兩種類型的內部表徵:固定長度向量和定向帶有屬性的圖表來計算輸入策略。其中 CNN encoder 將輸入圖像嵌入為矢量表徵,RNN encoder 將通過 RNN 結構順序處理目標狀態的輸入矢量。Graph encoder 將一組狀態輸入向量轉換到圖標中,並為每個輸入目標創建節點。Per-object CNN encoder 將從圖像中生成基於圖形的表徵。

策略 (policy)

MLP policy:基於給定的矢量表徵,得到一個多層感知器 MLP 的策略,輸出動作或 Q 值,這取決於所使用的演算法。

GN policy:通過 graph encoder 或 per-object CNN 得到一個基於 graph 的表徵,隨後使用三個圖網路 GN 的堆棧網路,其中第二個網路處理一些數字的循環步驟,這與「編碼-處理-解碼」的思路是一致的。

動作 (actions)

這裡提出了一種以目標為中心 (object-centric) 的絕對動作形式,稱為 relative actions。具體來說,在場景中,智能體能夠在推理過程中考慮目標間的關係來採取行動,這與人類的思考、行動方式類似。這裡主要包括如下四種動作形式:連續絕對動作 (continuous absolute actions)、連續關係動作 (continuous relative actions)、離散絕對動作 (discrete absolute actions)、離散關係動作 (discrete relative actions) 等,每種類型動作具體解釋請參見論文中的說明。

學習演算法 (learning algorithms)

使用內部矢量和圖形表徵,通過顯示策略和 Q 函數來生成動作。

RS0 學習演算法:用於連續動作輸出,使用 actor-critic 學習演算法並結合隨機值梯度演算法。

DQN 學習演算法:用於離散動作輸出,使用 Q-learning 實現帶邊緣 Q 值的DQN 網路。

MCTS:由於 DQN 智能體的輸出是離散動作,因此很容易將其餘標準的規劃技術相結合,如MTCS。在這裡,使用 DQN 的智能體作為 MTCS 的先驗,並通過不同的 MTCS 設置來改變學習經驗分布。

實驗分析

通過一系列的實驗來評估所提出的智能體在物理構造任務上的有效性。為了訓練的有效性,在實驗過程採用課程學習方法來增加每個訓練時期的任務的複雜性。例如,在 Silhouette task 中的課程學習能夠增加目標的數量,在連接任務中它能夠增加目標的高度,在遮擋任務中它能夠提高障礙物的高度等。

關係與絕對動作的對比實驗分析 (relative versus absolute actions)

實驗結果表明,使用關係動作的智能體表現明顯優於那些使用絕對動作的智能體。在任務中,幾乎每個關係智能體都會收斂在一個相似或更高中位數的表現水平,如圖3a所示。當平均到所有課程水平時,關係智能體的最好表現比絕對智能體多出1.7倍的獎勵值,而如果只考慮最先進水平,這個差異值將高達2.4倍,如圖3b 所示。

圖3c 列出絕對智能體的一些最佳表現例子,而圖3d 展示的是關係智能體的一些最佳例子。

如何通過結構化智能體完成物理構造任務?| 技術頭條 - 天天要聞

圖3 絕對動作和關係動作智能體的對比


(a) 平均到所有課程水平時兩種智能體所獲獎勵對比。

(b) 對於每個課程的最困難水平,兩種智能體獲得的獎勵對比。

(c-d) 對於每個課程的最困難水平,兩種智能體在四種任務上表現的量化對比。

有無模型的對比實驗分析 (model-based versus model-free)

通常複雜的建造任務需要更長期的規劃策略,而不是簡單的反應性策略。因此,如上文所述,這裡採用基於 MCTS 策略來增強 GN-DQN 智能體,並在多種不同環境下評估其表現。實驗結果如圖4所示,可見規劃策略對於智能體的表現是有效的,特別是對於連接和連接困難任務。

如何通過結構化智能體完成物理構造任務?| 技術頭條 - 天天要聞

圖4 (a-d) 對於最困難的課程水平,GN-DQN-MCTS 智能體在不同訓練和測試成本下的表現對比。其中,灰色虛線代表搜索成本計劃為1000的智能體表現。(e-h) 從每個任務中隨機選擇的任務時期,GN-DQN-MCTS 的代表性結構。其中,silhouette 和連接任務的訓練成本和測試成本分別採用0和50,遮擋任務的訓練和測試成本分別使用0和5,而遮擋困難任務中的智能體所使用的訓練和測試成本都為10。

泛化表現分析 (generalization)

如圖5所示,當應用到更大的場景時,GN-DQN 智能體,特別是 GN-DQN-MCTS 智能體具有非常不錯的泛化表現,如在 Silhouette task 中,GN-DQN-* 智能體在訓練階段能夠覆蓋到近乎兩倍的目標數量,而其他智能體的表現有明顯的下降。在多個目標連接任務中,雖然 GN-DQN-* 智能體的表現略有下降,但其他的智能體表現近乎為0。此外,圖6中 d-f 定性地顯示 GN-DQN-MCTS 智能體的泛化表現,總的來說,通過結構化的表徵,智能體在更複雜的場景下也能夠有魯棒性的表現。

如何通過結構化智能體完成物理構造任務?| 技術頭條 - 天天要聞

圖5 多種智能體的零目標泛化表現

(a) Silhouette task,目標數量在8到16之間變化。

(b) 連接任務,改變目標的位置到同一水平或不同水平。

(c) 連接任務,障礙物層的數量由3到4。

(d-f) GN-DQN-MCTS 智能體泛化到新場景的表現。

迭代關係推理分析 (iterative relational reasoning)

通過場景圖的信息傳播,Recurrent GN結構支持迭代關係推理。通過改變 GN-DQN 智能體迭代的步數來衡量其關係推理能力。實驗結果表明,增加信息傳播的步數,能夠提高智能體的推理能力。

結論與討論

本研究主要內容通過 RL 智能體來解決一系列物理構造任務問題。實驗結果表明,通過結構化圖形表徵,在基於模型的規劃和 MCTS 策略下,智能體能夠實現強大的性能和魯棒的泛化能力。這項工作是第一個關於智能體在複雜環境中學習物理構造任務的研究,結合豐富的結構和強大的學習能力是解決問題的關鍵。在未來的研究中,可以尋求目標檢測和分割的整合方法來學習計算機視覺目標之間的推理關係,可以繼續探索模型學習和更複雜的搜索策略等。

原文鏈接:https://arxiv.org/pdf/1904.03177.pdf

(本文為 AI大本營編譯文章,轉載請微信聯繫 1092722531)

熱門分類資訊推薦

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO - 天天要聞

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO雖然說《愛情公寓》這部劇在劇情上充滿了爭議,但是一定程度上,這部劇也是很多人的回憶,是伴隨了一代人的青春回憶,而且劇中的很多角色都成為了經典,他們的口頭禪也一直被拿來玩兒梗。
Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了 - 天天要聞

Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了

談到《愛情公寓》這部火爆一時的歡樂喜劇,大家肯定都不陌生。不知道大家是否還記得《愛情公寓》中那個把曾小賢治得服服帖帖的女上司Lisa榕,現實中的她名叫榕榕,和劇中的形象也判若兩人。1981年出生在遼寧瀋陽的榕榕,畢業於上海戲劇學院,後來成為了上海東方傳媒集團有限公司的一名主持人。