一種有效的強化學習「樂觀」的演算法已經被開發出來

2022年11月05日04:01:03 科技 1835

來自俄羅斯、法國和德國的國際科學家團隊在計算機科學學院、HSE 人工智慧中心和 AIRI 人工智慧研究所的研究人員的參與下，開發了一種新的強化學習演算法（Bayes- UCBVI）。這是第一個具有數學有效性證明的貝葉斯演算法，並已在 Atari 遊戲的實踐中成功測試。

結果在 ICML-2022 會議上公布。強化學習是機器學習的一種。與經典機器學習相比，該方法的關鍵特徵是代理（演算法）與環境的不斷交互，它從環境中接收獎勵和懲罰形式的反饋。智能體的目標是最大化環境給予他「正確」交互的獎勵量。

代理不應該僅僅試圖根據當前對環境的理解來找出正確的做法。他還必須探索這個環境：尋找新的機會以獲得更大的回報。因此，出現了一個困境：研究或使用已知數據。

在探索環境和使用現有知識之間進行選擇的問題是構建有效的強化學習演算法的主要問題之一。研究人員開發的 Bayes-UCBVI 演算法在樂觀範式中運行，即代理對他很少執行的動作的價值進行雙重檢查。

樂觀原則導致智能體選擇任何行動是出於以下兩個原因之一：要麼他沒有嘗試做太多事情，要麼他非常確定它是好的。這是確保代理對環境進行研究的原因。

「讓我們想像一下你家附近有一家咖啡店。每天早上你都會在那裡買你喜歡的咖啡和糕點。但是附近開了一家咖啡館，你想：如果哪裡的包子更好吃，咖啡更香呢？第二天早上，您將面臨兩難選擇：探索一家新咖啡館或去一個您可以確定結果的值得信賴的地方。

你決定探索一個新地方，但咖啡味道不好。但是你嘗試過一次咖啡卻不知道：也許最後一批咖啡豆只是不成功。基於樂觀的原則，你會給這家咖啡館至少一次機會，」文章作者之一、國際隨機演算法和多元數據分析實驗室和 AIRI 的員工 Daniil Tyapkin 解釋道。

研究人員指出，雖然理論上有效，但樂觀原則很難用於創建適用於複雜環境（如計算機遊戲）或控制真實機器人的實用強化學習演算法。科學家們提出的演算法使得彌合理論與實踐之間的差距成為可能。

作者團隊首先提出了該演算法的泛化，並在 57 款 Atari 遊戲上進行了測試。「這是第一個具有理論和實踐意義的演算法，」作者之一、隨機演算法和多維數據分析國際實驗室負責人 Alexei Naumov 說。— Bayes-UCBVI 的成熟結果在機器學習的發展中發揮了重要作用，它們聯合了理論家和實踐者的社區。在實踐中使用該演算法將顯著加快學習人工智慧的過程。」