一種有效的強化學習「樂觀」的演算法已經被開發出來

2022年11月05日04:01:03 科技 1835

來自俄羅斯、法國和德國的國際科學家團隊在計算機科學學院、HSE 人工智慧中心和 AIRI 人工智慧研究所的研究人員的參與下,開發了一種新的強化學習演算法(Bayes- UCBVI)。這是第一個具有數學有效性證明的貝葉斯演算法,並已在 Atari 遊戲的實踐中成功測試。

一種有效的強化學習「樂觀」的演算法已經被開發出來 - 天天要聞

結果在 ICML-2022 會議上公布。強化學習是機器學習的一種。與經典機器學習相比,該方法的關鍵特徵是代理(演算法)與環境的不斷交互,它從環境中接收獎勵和懲罰形式的反饋。智能體的目標是最大化環境給予他「正確」交互的獎勵量。

代理不應該僅僅試圖根據當前對環境的理解來找出正確的做法。他還必須探索這個環境:尋找新的機會以獲得更大的回報。因此,出現了一個困境:研究或使用已知數據。

在探索環境和使用現有知識之間進行選擇的問題是構建有效的強化學習演算法的主要問題之一。研究人員開發的 Bayes-UCBVI 演算法在樂觀範式中運行,即代理對他很少執行的動作的價值進行雙重檢查。

樂觀原則導致智能體選擇任何行動是出於以下兩個原因之一:要麼他沒有嘗試做太多事情,要麼他非常確定它是好的。這是確保代理對環境進行研究的原因。

「讓我們想像一下你家附近有一家咖啡店。每天早上你都會在那裡買你喜歡的咖啡和糕點。但是附近開了一家咖啡館,你想:如果哪裡的包子更好吃,咖啡更香呢?第二天早上,您將面臨兩難選擇:探索一家新咖啡館或去一個您可以確定結果的值得信賴的地方。

你決定探索一個新地方,但咖啡味道不好。但是你嘗試過一次咖啡卻不知道:也許最後一批咖啡豆只是不成功。基於樂觀的原則,你會給這家咖啡館至少一次機會,」文章作者之一、國際隨機演算法和多元數據分析實驗室和 AIRI 的員工 Daniil Tyapkin 解釋道。

研究人員指出,雖然理論上有效,但樂觀原則很難用於創建適用於複雜環境(如計算機遊戲)或控制真實機器人的實用強化學習演算法。科學家們提出的演算法使得彌合理論與實踐之間的差距成為可能。

作者團隊首先提出了該演算法的泛化,並在 57 款 Atari 遊戲上進行了測試。「這是第一個具有理論和實踐意義的演算法,」作者之一、隨機演算法和多維數據分析國際實驗室負責人 Alexei Naumov 說。— Bayes-UCBVI 的成熟結果在機器學習的發展中發揮了重要作用,它們聯合了理論家和實踐者的社區。在實踐中使用該演算法將顯著加快學習人工智慧的過程。」

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。