一种有效的强化学习“乐观”的算法已经被开发出来

来自俄罗斯、法国和德国的国际科学家团队在计算机科学学院、HSE 人工智能中心和 AIRI 人工智能研究所的研究人员的参与下,开发了一种新的强化学习算法(Bayes- UCBVI)。这是第一个具有数学有效性证明的贝叶斯算法,并已在 Atari 游戏的实践中成功测试。

结果在 ICML-2022 会议上公布。强化学习是机器学习的一种。与经典机器学习相比,该方法的关键特征是代理(算法)与环境的不断交互,它从环境中接收奖励和惩罚形式的反馈。智能体的目标是最大化环境给予他“正确”交互的奖励量。

代理不应该仅仅试图根据当前对环境的理解来找出正确的做法。他还必须探索这个环境:寻找新的机会以获得更大的回报。因此,出现了一个困境:研究或使用已知数据。

在探索环境和使用现有知识之间进行选择的问题是构建有效的强化学习算法的主要问题之一。研究人员开发的 Bayes-UCBVI 算法在乐观范式中运行,即代理对他很少执行的动作的价值进行双重检查。

乐观原则导致智能体选择任何行动是出于以下两个原因之一:要么他没有尝试做太多事情,要么他非常确定它是好的。这是确保代理对环境进行研究的原因。

“让我们想象一下你家附近有一家咖啡店。每天早上你都会在那里买你喜欢的咖啡和糕点。但是附近开了一家咖啡馆,你想:如果哪里的包子更好吃,咖啡更香呢?第二天早上,您将面临两难选择:探索一家新咖啡馆或去一个您可以确定结果的值得信赖的地方。

你决定探索一个新地方,但咖啡味道不好。但是你尝试过一次咖啡却不知道:也许最后一批咖啡豆只是不成功。基于乐观的原则,你会给这家咖啡馆至少一次机会,”文章作者之一、国际随机算法和多元数据分析实验室和 AIRI 的员工 Daniil Tyapkin 解释道。

研究人员指出,虽然理论上有效,但乐观原则很难用于创建适用于复杂环境(如计算机游戏)或控制真实机器人的实用强化学习算法。科学家们提出的算法使得弥合理论与实践之间的差距成为可能。

作者团队首先提出了该算法的泛化,并在 57 款 Atari 游戏上进行了测试。“这是第一个具有理论和实践意义的算法,”作者之一、随机算法和多维数据分析国际实验室负责人 Alexei Naumov 说。— Bayes-UCBVI 的成熟结果在机器学习的发展中发挥了重要作用,它们联合了理论家和实践者的社区。在实践中使用该算法将显着加快学习人工智能的过程。”