朱松純團隊新作：讓AI「讀懂」人類價值觀！登上Science Robotics

2022年07月14日12:33:37 科技 1364

機器之心專欄

作者：朱松純團隊

今日（7月14日），國際頂級學術期刊<Science Robotics >發表了朱松純團隊（UCLA袁路遙、高曉豐、北京通用人工智能研究院鄭子隆、北京大學人工智能研究院朱毅鑫等作者）的最新研究成果——實時雙向人機價值對齊 Bidirectional human-robot value alignment。

論文地址：https://www.science.org/doi/10.1126/scirobotics.abm4183

本論文提出了一個可解釋的人工智能（XAI）系統，闡述了一種機器實時理解人類價值觀的計算框架，並展示了機械人如何與人類用戶通過實時溝通完成一系列複雜人機協作任務。朱松純團隊長期從事可解釋人工智能相關工作。此文是團隊第二篇發表在 Science Robotics 的關於可解釋人工智能的論文。這項研究涵蓋了認知推理、自然語言處理、機器學習、機械人學等多學科領域，是朱松純教授團隊交叉研究成果的集中體現。

在這個人機共存的時代，為了讓機器更好地服務於人類，理想的人機協作應該是什麼樣的？我們不妨借鑒一下人類社會的協作，在人類團隊合作過程中，共同的價值觀和目標是保證團隊之間齊心協力、高效合作的基礎。當前機器智能大多數基於數據驅動（且很多情況下獲取不了數據）、且是單方面接受人類指令（一種是人類觀測受限的情況下是沒法給到指令的）

為了解決上述問題，以及為了讓機器能夠進行更好地「自主」探索，我們要讓機器學會「讀懂」人類價值觀，因此我們提出「實時雙向價值對齊」。這就要求人類要想辦法一次次地給到 AI 反饋，逐漸地教會 AI「讀懂」人類的價值觀，也就是讓機器和人類的「價值觀」保持一致。

這個問題也被稱為價值對齊（value alignment），即如何保證人工智能在執行任務過程中所實現的價值和用戶所在意的價值是一致的？

可以說，價值對齊是人機協作過程中達成共識（common ground）的基礎，具有非常重要的研究價值。價值對齊也是未來的一個重要發展方向，是讓機器實現「自主智能」的關鍵所在，也是實現通用人工智能的必經之路。鑒於此，北京通用人工智能研究院院長朱松純團隊一直在致力於此方向的研究。

一、研究背景

理想的人機協作應該是什麼樣的？在人工智能發展方興未艾之時，控制論之父諾伯特 - 維納（Norbert Wiener）就提出了人機協作的基礎：

「如果我們使用一個機器來實現我們的目標，但又不能有效地干預其運作方式... 那麼我們最好能篤定，輸入給機器的目標是我們真正所預期的。」

近幾年來，一系列研究進展都表明：高效的人機協作依賴於團隊之間擁有一致的價值觀、目標，以及對任務現狀的理解。這就要求人類通過與機器的溝通來高效地建立整個團隊對任務的共識，每個團隊成員都採取其他夥伴更容易理解的行為決策來完成協作。在大多數情況下，隊友之間的溝通過程都是雙向的，即每個成員都要扮演着傾聽者和表達者兩種角色。這樣的雙向價值對齊決定了人機協作中的溝通是否能夠成功，即機械人是否能準確地推斷出用戶的價值目標，並有效地解釋自己的行為。如果這兩個條件沒有得到滿足，隊友間彼此的不理解和誤判很可能會導致協作失敗。因此，想要使人工智能更好地服務於人類社會，必須讓它們在與人類互動時扮演好這兩種角色。

從傾聽者的角度來看，傳統人工智能算法（如逆強化學習（IRL）等）能夠將交互數據與機器學習算法相結合，以學習特定任務中用戶的價值目標，即通過輸入用戶在特定任務中的行為方式，來恢復行為背後的獎勵函數。然而，在眾多實際且重要（如軍事和醫療領域）的應用中，數據的獲取經常十分昂貴。這些機器學習方法對大型數據集的依賴是無法應對即時互動的人機協作場景的。

從表達者的角度來看，可解釋人工智能（XAI）的引入是為了促進人機之間達成共識。當前的 XAI 系統通常強調的是對「模型如何產生決策過程」的解釋。然而，不管用戶有多少主動的輸入或互動，都只能影響機器「生成解釋」的過程，而不影響機器「做出決策」的過程。這是一種單向的價值目標對齊，我們稱之為靜態機器 - 動態用戶的交流，即在這種協作過程中只有用戶對機器或任務的理解發生了變化。

二、研究方法

為了完成人與機器之間價值目標的雙向對齊，需要一種人類價值主導的、動態機器 - 動態用戶的交流模式。在這樣一種新的模式中，機械人除了揭示其決策過程外，還將根據用戶的價值目標即時調整行為，從而使機器和人類用戶能夠合作實現一系列的共同目標。為了即時掌握用戶信息，我們採用通訊學習取代了傳統數據驅動的機器學習方法，機器將根據所推斷出的用戶的價值目標進行合理解釋。這種合作導向的人機協作要求機器具有心智理論（ToM），即理解他人的心理狀態（包括情緒、信仰、意圖、慾望、假裝與知識等）的能力。心智理論最早在心理學和認知科學中被研究，現已泛化到人工智能領域。心智理論在多智能體和人機交互環境中尤為重要，因為每個智能體都要理解其他智能體（包括人）的狀態和意圖才能更好地執行任務，其決策行為又會影響其他智能體做出判斷。設計擁有心智理論的系統不僅在於解釋其決策過程，還旨在理解人類的合作需求，以此形成一個以人類為中心、人機兼容的協作過程。

為了建立一個具有上述能力的 AI 系統，本文設計了一個 "人機協作探索" 遊戲。在這個遊戲中，用戶需要與三個偵察機械人合作完成探索任務並最大化團隊收益。本遊戲設定：1、只有偵察機械人能直接與遊戲世界互動，用戶不能直接控制機械人的行為；2、用戶將在遊戲初始階段選擇自己的價值目標（例如：最小化探索時間，收集更多的資源，探索更大的區域等），機械人團隊必須通過人機互動來推斷這個價值目標。這樣的設置真實地模仿了現實世界中的人機合作任務，因為許多 AI 系統都需要在人類用戶的監督下，自主地在危險的環境中運行（如在核電站有核泄漏的情況下）。

要成功地完成遊戲，機械人需要同時掌握「聽」和「說」的能力來實現價值雙向對齊。首先，機械人需要從人類的反饋中提取有用的信息，推斷出用戶的價值函數（描述目標的函數）並相應地調整它們的策略。其次，機械人需要根據它們當前的價值推斷，有效地解釋它們 "已經做了什麼" 和 "計劃做什麼"，讓用戶知道機械人是否和人類有相同的的價值函數。同時，用戶的任務是指揮偵查機械人到達目的地，並且使團隊的收益最大化。因此，用戶對機械人的評價也是一個雙向的過程，即用戶必須即時推斷偵察機械人的價值函數，檢查其是否與人類的價值函數相一致。如果不一致，則選擇適當的指令來調整他們的目標。最終，如果系統運行良好，偵察機械人的價值函數應該與人類用戶的價值函數保持一致，並且用戶應該高度信任機械人系統自主運行。

圖 1. 人機價值對齊過程總覽。

圖 1 介紹了遊戲中的雙向價值調整過程。在遊戲互動過程中，存在着三個價值目標，分別是

：用戶的真實價值；

機械人對用戶價值的估計（在遊戲中，偵察機械人沒有自己的價值，所以他們以人類用戶價值的估計為依據採取行動）；

用戶對機械人價值的估計。基於這三個價值目標產生了兩種價值對齊——

：機械人從用戶給出的反饋中學習用戶的價值；

: 用戶從機械人給出的解釋和互動中了解機械人的價值。最終，三種價值目標將匯聚於

，人 - 機團隊將形成相互信任和高效的協作。

本文提出的 XAI 系統旨在共同解決以下兩個問題：

1. 在即時互動和反饋過程中，機器如何準確估計人類用戶的意圖？

2. 機器如何解釋自己，以便人類用戶能夠理解機器的行為，並提供有用的反饋來幫助機器做出價值調整？

在本文提出的系統中，機械人提出任務計劃的建議，並要求人類用戶給出反饋（接受或拒絕建議），從人類反饋中推斷出任務目標背後人類真實的價值意圖。在協作遊戲中，如果用戶知道機械人正在積極學習他的價值目標，那麼用戶就會傾向於提供更加有用的反饋，以促進價值保持對齊。

特別地，每條信息都傳達了兩方面的意義，包括（1）基於價值目標的語義信息和（2）基於不同解釋方式之間區別的語用信息。利用這兩方面的含義，XAI 系統以一種多輪的、即時的方式展示了價值的一致性，在一個問題搜索空間大的團隊合作任務中實現了高效的人機互動交流。為了使機械人的價值目標與用戶保持一致，XAI 系統生成解釋、揭示機械人對人類價值的當前估計、並證明提出規劃的合理性。在每一步的互動中，為了避免解釋內容過於冗長，機械人會提供定製化的解釋，比如省略重複的已知信息並強調重要的更新。在收到機械人的解釋並向它們發送反饋後，用戶向機械人提供提示，說明他們對最新建議和解釋的滿意程度。利用這些反饋，機械人會不斷地更新解釋的形式和內容。

為了評估本文 XAI 系統的性能，我們邀請了人類用戶進行了一系列實驗，以此考察人類 - 機器雙向價值協調是否成功。我們採用了三種類型的解釋，並將用戶隨機分配到三組中的一組。實驗結果表明，我們所提出的 XAI 系統能夠以有效地實現即時雙向的價值對齊，並用於協作任務；機械人能夠推斷出人類用戶的價值，並調整其價值估計被用戶所理解。此外，有必要進行多樣化的解釋，以提高機器的決策性能和它們的社會智能。合作式的人工智能的目標是減少人類的認知負擔，並協助完成任務，我們相信，主動即時推斷人類的價值目標，並促進人類對系統的理解，將會為通用智能體的人機合作鋪平道路。

三、遊戲設置

如圖 2 所示，在我們設計的合作遊戲中，包含一個人類指揮官和三個偵察機械人。遊戲的目標是需要在一張未知的地圖上找到一條從基地（位於地圖的右下角）到目的地（位於地圖的左上角）的安全路徑。該地圖被表示為一個部分可見的 20×20 網格圖，每個格子都可能有一個不同的裝置，只有在偵察機械人靠近它之後才可見。

在遊戲中，人類指揮官和偵察機械人具有結構性的相互依賴關係，一方面人類指揮官需要依靠偵察機械人探索危險區域並排除爆炸物，另一方面，偵察機械人需要依賴人類指揮官提供的反饋更好地理解當前任務的目標。

圖 2：偵察探索遊戲的用戶界面。從左到右，圖例面板顯示遊戲地圖中的圖例。價值函數面板顯示這局遊戲的價值函數，偵察機械人不知道這個函數，用戶也不能修改。中心地圖顯示當前地圖上的信息。分數面板顯示了用戶的當前分數。總分的計算方法是將各個目標的分數用價值函數加權後的總和。狀態面板顯示系統的當前狀態。提議面板顯示偵察機械人當前的任務計劃提議，用戶可以接受 / 拒絕每個建議。解釋面板顯示偵察機械人提供的解釋。

我們為偵察機械人制定了在尋找到路徑時額外的一系列目標，包括 1）儘快到達目的地，2）調查地圖上的可疑裝置，3）探索更大的區域，以及 4）收集資源。遊戲的表現是由偵察機械人完成這些目標的情況和它們的相對重要性（權重）來衡量的，其中的權重就是人類用戶的價值函數。例如，如果人類指揮官更注重時效而不是獲取更多的資源，那麼偵察機械人則應該忽略沿途上的部分資源以保證儘快到達目的地。（注，這個價值函數只在遊戲開始時向人類用戶透露，而不對偵察機械人透露。圖 3 總結了人機互動的流程。）

在不清楚人類指揮官價值取向的情況下，機械人偵察兵小隊必須快速推斷出人類的價值判斷，在每一步行動中，機械人偵察小隊每一個成員都要給出下一步行動方案，由人類指揮官選擇。為了幫助指揮官進行決策，偵察機械人小隊將解釋行動方案的依據。結合指揮官的反饋，以往的互動歷史和當前的地圖情況，偵察機械人小隊將調整其對指揮官當前價值觀的判斷，並採取相應的行動。

圖 3：偵查探索遊戲的設計。時間線（A）表示在一輪遊戲中發生的事件，從機械人收到環境信號開始，到它們的下一步動作結束。時間線（B）和（C）分別描述了機械人和用戶的心智變化過程。

四、即時雙向價值對齊模型

為了估計人類指揮官在通信過程中的價值函數，我們將兩個層次的心智理論整合到我們的計算模型中。第 1 層心智理論考慮合作性假設。也就是說，給定一個合作的人類指揮官，被他接受的來自機械人的提議，更有可能與正確的價值函數相一致。第 2 層心智理論進一步將用戶的教育方法納入模型，使機械人更接近人類指揮官真實價值的反饋比其他反饋更容易被人類指揮官選擇。建模人類指揮官的教育傾向（pedagogical inclination）需要更高一層的心智理論。結合這兩個層次的心智理論，我們將人類指揮官的決策函數寫成一個由價值函數參數化的分佈，並開發出一種新的學習算法。

值得注意的是，與我們的人機合作框架有可比性但不同的方法是逆強化學習。逆強化學習的目的是在一個被動的學習環境中，根據預先錄製的、來自專家的演示（demonstration）來恢復底層的獎勵函數（reward function）。與之不同的是，在我們的環境中，偵察機械人被設計為從人類指揮官給出的稀缺監督中進行交互學習。更重要的是，我們的設計要求機械人在任務進行的過程中即時地、主動地推斷人類指揮官的價值。此外，為了完成合作，偵察機械人不僅必須迅速理解人類指揮官的意圖，還要闡明自己的決策依據，以確保在整個遊戲過程中與人類指揮官順利溝通。總體來看，機械人的任務是通過推斷人類用戶的心智模型，積極提出建議，並評估人類用戶的反饋來進行價值調整。這些都需要機器對人類用戶進行複雜的心智建模，並具有即時更新模型的能力。

五、總結

本文提出的 XAI 系統成功地證明了雙向人機價值對齊框架的可行性。從傾聽者的角度來看，所有三個解釋組中的機械人都可以在遊戲進度達到 25% 時，通過對至少 60% 的目標重要性進行正確排序，快速與用戶的價值進行對齊。從表達者的角度來看，通過提供適當的解釋，機械人可以向用戶說明其意圖，並幫助人類更好的感知機械人的價值，當給機器提供」完整解釋「時，只需在遊戲進度達到 50% 時即可實現人類用戶價值與機械人價值的統一，而當只提供」簡要解釋「時，遊戲進度需要達到 75% 時才能完成價值的統一。

我們從上述兩個角度得到了令人信服的證據，實現了雙向價值對齊的過程，具體來說：

1. 通過接收人類的反饋，機械人逐漸更新其價值函數來與人類的價值保持一致；

2. 通過不斷地與機械人交互，人類用戶逐漸形成對系統能力和意圖的感知。雖然機械人系統的價值在遊戲的上半場沒有與人類用戶實現統一，但用戶對機械人價值評估能力的感知仍然可以提高。

最終，當機械人的價值變得穩定時，用戶對機械人的評估也變得穩定。從機械人對用戶價值的評估到用戶價值的真實值，以及從用戶對機械人價值的評估到機械人當前價值的收斂配對，形成了由用戶真實價值錨定的雙向價值對齊。

總的來說，我們提出了一個雙向人機價值對齊框架，並使用 XAI 系統驗證其可行性。我們提出的 XAI 系統表明，當把心智理論集成到機器的學習模塊中，並向用戶提供適當的解釋時，人類和機械人能夠通過即時交互的方式實現心智模型的對齊。我們提出的計算框架通過促進人和機器之間共享心智模型的形成，為解決本文的核心問題 "理想的人機協作應該是什麼樣的？" 提供了全新的解答。

在這個遊戲任務中，我們的工作側重於以價值和意圖為核心對心智進行建模，對齊這些價值可以極大地幫助人類和機器為面向任務的協作建立共同基礎，使其可以勝任更加複雜的場景何任務。因此，我們的工作是在人機協作中朝着更通用的心智模型對齊邁出的第一步。在未來的工作中，我們計劃探索哪些因素能夠進一步增強人類用戶信任（例如，允許對機械人進行反事實查詢），驗證 "對齊" 對任務性能的影響，並將我們的系統應用於涉及更複雜環境和價值函數的任務。