ETH Zurich提出ConBO演算法實現VR/AR交互自動優化

利用以前用戶的數據來加速優化,在適應個人特徵的同時利用共享特徵

映維網nweon 2025年06月24日)由於用戶的運動能力、偏好和行為不同,虛擬現實和增強現實中的輸入交互最佳設置在個體之間差異很大。今天的交互系統要麼通常忽略這種可變性,要麼依賴於手動用戶調整和明確的校準程序,這可能導致交互效率低下或增加設置時間。

儘管human-in-the-loop優化有可能在使用過程中確定最佳設置,但由於其優化過程較長,所以很少應用。更有效的方法是不斷利用以前用戶的數據來加速優化,在適應個人特徵的同時利用共享特徵。

human-in-the-loop(人機協同/人在迴路) 是一種將人類智能與人工智慧系統緊密結合的方法論。其核心思想是:在ai系統的關鍵環節引入人類的判斷、決策或反饋,形成一個「人機協作閉環」,從而提升系統的準確性、可靠性和適應性。

在一項研究中,蘇黎世聯邦理工學院團隊介紹了continual human-in-the-loop optimization和基於貝葉斯優化的方法,利用貝葉斯神經網路代理模型來捕獲種群水平特徵,同時適應新用戶。他們提出了一種生成式重放策略來減輕災難性遺忘,隨著用戶基數的增加,適應時間可以縮短。

由於用戶的運動能力、偏好和行為不同,虛擬現實和增強現實中的輸入交互最佳設置在個體之間差異很大。今天的交互系統要麼通常忽略這種可變性,要麼依賴於手動用戶調整和明確的校準程序,這可能導致交互效率低下或增加設置時間。

人在迴路優化(hilo)提出了一種替代方法,基於用戶過去的特定設計參數的性能來優化交互。hilo已在廣泛的應用中證明其有效性,包括目標選擇、文本輸入和視覺設計等。

儘管計算優化器有助於避免對每個設計選項進行詳盡的測試,並旨在以最少的用戶試驗確定最佳解決方案,從而減少用戶花在次優設置的時間,但hilo廣泛採用的一個重要障礙是其相對較低的樣本效率。在沒有先驗信息的情況下,hilo通常依賴於初始隨機搜索來探索問題空間,需要大量的試驗來收斂到最優解。

另外,每個用戶都必須從頭開始優化過程。例如,優化3d選擇的傳遞函數可能需要每個用戶花費60到90分鐘。儘管單個用戶在不同的輸入設置下可能有不同的偏好和性能,但可以利用用戶群中的共享特徵來提高用戶之間的優化器效率。

理想情況下,隨著來自先前用戶的數據的積累,優化將變得更加高效,允許後續用戶從先前的優化經驗中受益,同時保持足夠的靈活性,以確保發現適合個人需求的最佳解決方案。

所以在一項研究中,蘇黎世聯邦理工學院團隊研究了這樣一個問題:優化器能否不斷地從先前的用戶體驗中學習,從而隨著時間的推移提高效率?

儘管有潛力,但目前的計算方法並不支持對hilo進行不斷改進的優化。另外在現有的研究文獻中,問題本身和相應的挑戰並沒有得到徹底的闡述。一個相關的概念是元貝葉斯優化,它結合了元學習和貝葉斯優化。有的研究演示了在線hilo中使用元貝葉斯優化,其中一批「優先用戶」需要從頭開始經歷一個完整的優化過程,使優化器能夠更有效地處理後續「最終用戶」。

然而,這種方法有一個關鍵的限制:部署期間的計算時間隨著先前用戶的數量增加而增加,從而導致可擴展性問題。超過某一點,它就變得不切實際,因為用戶在適應過程中會遇到嚴重的延遲。另外,所述方法假設「優先用戶」可以投入足夠的時間來進行徹底的優化,但這在實踐中可能不可行。換句話說,所述方法不適合直接轉換為持續學習框架。

另一個密切相關的概念是持續學習,其中模型通過在不同任務之間積累知識來提高其預測能力(在hilo上下文中,任務是針對特定用戶進行優化)。最近文獻出現了關於優化背景下持續學習的研究,但它們的目標問題僅限於線性離散問題,其中典型的hilo處理與連續和多維參數空間的相互作用。hilo面臨的獨特挑戰和相應的持續學習方法未得到解決和探索。

為了填補研究空白,團隊提出了持續人在迴路優化(chilo)的問題和概念。這種計算優化器,能夠通過利用以前用戶積累的經驗不斷提高效率和性能(如圖所示)。

團隊進一步確定了與持續學習相一致的關鍵技術挑戰,包括可擴展性、災難性遺忘、穩定性-可塑性困境,以及由於觀測數據分布不均勻而導致的模型不穩定性。相關挑戰指導了構建chilo方法的設計原則。

最後,團隊提出了一種新的方法——種群信息連續貝葉斯優化(conbo)。conbo的核心是一個貝葉斯神經網路(bnn),它的訓練數據是由以前用戶的單個模型合成,每個模型都代表一組獨特的用戶特徵。所述方法通過逐步將種群水平的用戶體驗與每個新用戶集成,以促進更穩定和健壯的持續優化。

研究人員使用一系列標準基準優化函數驗證了conbo的有效性和泛化性,並證明了conbo可以隨著用戶數據的積累而提高優化效率。最後,他們應用conbo來優化vr中使用文本輸入的懸空鍵盤配置。評估顯示,與針對每個用戶從頭開始優化相比,隨著用戶數量的增加,用戶性能和收斂時間都有了顯著改善。

相關論文:continual human-in-the-loop optimizationhttps://arxiv.org/pdf/2503.05405

總的來說,團隊解決了人在迴路優化中的一個新挑戰:優化器如何不斷積累經驗並隨著時間的推移而改進?團隊提出了conbo。這種基於貝葉斯神經網路的方法通過種群模型捕獲種群級用戶特徵,並使用以前用戶的存儲模型結合生成記憶重播機制。conbo在vr懸空文本輸入方面的評估表明,在適應效率和整體性能方面,它比標準貝葉斯優化有了顯著改善,同時在不需要明確用戶反饋的情況下提供與手動調整相當的性能。

隨著時間的推移,結果進一步顯示出明顯的改進趨勢,後來的用戶組從系統積累的知識中受益。這說明了conbo在向以前的用戶學習的過程中逐步提高適應效率的能力。

團隊表示,隨著系統在用戶、設備和任務之間的改進,conbo可以成為未來真正自適應和個性化交互的關鍵推動者,並最終演變為為廣泛的應用實現高效和無摩擦的交互。