一种有效的强化学习“乐观”的算法已经被开发出来

2022年11月05日04:01:03 科技 1835

来自俄罗斯、法国和德国的国际科学家团队在计算机科学学院、HSE 人工智能中心和 AIRI 人工智能研究所的研究人员的参与下,开发了一种新的强化学习算法(Bayes- UCBVI)。这是第一个具有数学有效性证明的贝叶斯算法,并已在 Atari 游戏的实践中成功测试。

一种有效的强化学习“乐观”的算法已经被开发出来 - 天天要闻

结果在 ICML-2022 会议上公布。强化学习是机器学习的一种。与经典机器学习相比,该方法的关键特征是代理(算法)与环境的不断交互,它从环境中接收奖励和惩罚形式的反馈。智能体的目标是最大化环境给予他“正确”交互的奖励量。

代理不应该仅仅试图根据当前对环境的理解来找出正确的做法。他还必须探索这个环境:寻找新的机会以获得更大的回报。因此,出现了一个困境:研究或使用已知数据。

在探索环境和使用现有知识之间进行选择的问题是构建有效的强化学习算法的主要问题之一。研究人员开发的 Bayes-UCBVI 算法在乐观范式中运行,即代理对他很少执行的动作的价值进行双重检查。

乐观原则导致智能体选择任何行动是出于以下两个原因之一:要么他没有尝试做太多事情,要么他非常确定它是好的。这是确保代理对环境进行研究的原因。

“让我们想象一下你家附近有一家咖啡店。每天早上你都会在那里买你喜欢的咖啡和糕点。但是附近开了一家咖啡馆,你想:如果哪里的包子更好吃,咖啡更香呢?第二天早上,您将面临两难选择:探索一家新咖啡馆或去一个您可以确定结果的值得信赖的地方。

你决定探索一个新地方,但咖啡味道不好。但是你尝试过一次咖啡却不知道:也许最后一批咖啡豆只是不成功。基于乐观的原则,你会给这家咖啡馆至少一次机会,”文章作者之一、国际随机算法和多元数据分析实验室和 AIRI 的员工 Daniil Tyapkin 解释道。

研究人员指出,虽然理论上有效,但乐观原则很难用于创建适用于复杂环境(如计算机游戏)或控制真实机器人的实用强化学习算法。科学家们提出的算法使得弥合理论与实践之间的差距成为可能。

作者团队首先提出了该算法的泛化,并在 57 款 Atari 游戏上进行了测试。“这是第一个具有理论和实践意义的算法,”作者之一、随机算法和多维数据分析国际实验室负责人 Alexei Naumov 说。— Bayes-UCBVI 的成熟结果在机器学习的发展中发挥了重要作用,它们联合了理论家和实践者的社区。在实践中使用该算法将显着加快学习人工智能的过程。”

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。