首页 > 股票资讯 正文

设计一个简单有效的强化学习探索算法,Aauto有了新的思路 300171

时间:2021-03-06 09:12:30作者:佚名

设计简单有效的强化学习探索算法,自动加速有新的想法

机器柱的中心

机器志信编辑部

在这篇论文中,德克萨斯A&M大学和阿托·斯派克斯特的研究人员提出了一种简单有效的探索算法,旨在为随机环境中的探索问题提供一种有效的解决方案。

论文:https://openreview.net/forum?

代码:https://github.com/daochenzha/rapid

探索是强化学习的经典问题。一个好的探索策略可以大大提高强化学习的效率,节省计算资源。

例如,在下图所示的迷宫中,代理(红色三角形)需要从第一个房间开始,逐个打开下一个房间的门,最后到达终点(绿色正方形)。代理商能得到的回报是稀疏的,只有到了终点才能得到回报。如果不能有效探索,代理不知道什么动作合适,很容易卡在前几个房间,陷入局部最优。

研究现状及分析

业内处理勘探问题最常用的方法是内部奖励

为了解决这个问题,本文提出了“剧集排名法”。

圆形排序算法

如下图所示,研究者提出了一种机制,对每一轮的探索行为进行评分和排序,从而选出好的探索行为。

对于每轮生成的数据,该算法从三个不同的维度对探索行为进行评分。从局部来看,算法通过计算覆盖率进行评分。比如在上面提到的迷宫中,这个研究给多访房间这一轮打分更高,因为研究人员希望算法能多访房间。从全球的角度来看,研究人员希望尽可能在每一轮中访问不同的国家。最后,算法考虑了外部奖励大小。在这种迷宫环境中,获得更好的外部奖励往往意味着更好的探索。

为了更好的利用这些好的探索行为,设计了一个简单的缓冲区,临时存储一批得分最高的数据。然后,算法使用模仿学习来重现这些更好的探索行为。比如一轮拜访很多房间,算法会通过模仿学习来重现这种良好的探索行为,从而间接鼓励代理人探索更多的房间。

圆形排序算法可以有效处理环境的随机性。首先,回合排序算法对整回合进行评分,而不关注特定的状态。这种整体行为对随机性更加稳健。其次,缓冲机制可以保存一些好的探索行为以供重用,因此一个好的回合可以学习多次,另一方面提高了算法的效率。

随机环境下圆形排序算法的效果

为了验证圆形排序算法的有效性,本研究进行了大量的实验。在第一组实验中,这项研究考虑了来自MiniGrid的大量数据

研究人员将圆形排序算法与SOTA搜索算法进行了比较。结果如下(RAPID是本研究提出的圆形排序算法):

这些环境中的数字(SX-里)代表迷宫中房间的大小和数量。它们越大,探索环境就越困难。实验结果表明,圆形排序方法在困难环境下的性能明显优于现有方法。比如在MultiRoom-N7-S8上,轮排序算法的学习速度比现有方法快十倍以上。在key corr ver-S4-R3上,圆形排序算法是唯一有效的方法。

在第二组实验中,本研究考虑了一个三维迷宫,如下图所示。代理看到的是第一人称视角的画面。同样,迷宫结构也是每一圈随机生成的。在这样的环境下,代理需要学习如何在原始图片信息中进行探索。

实验表明,圆形排序算法明显优于现有方法,这表明该算法仍然适用于原始图片:

非随机环境下圆形排序算法的效果

在第三组实验中,研究人员探索了该算法是否可以用于机器人控制。如下图所示,代理需要操作机器人来完成特定的任务,比如前进、跳跃、保持平衡等。

实验结果表明,圆形排序算法在这些非随机环境中仍然具有良好的效果:

总结

本研究为解决精读探究问题提供了一种新的途径。与以往基于内部奖励的方法不同,轮排序算法记录好的探索行为,然后通过模仿学习来鼓励代理人进行探索。初步结果表明,该方法具有很好的效果,尤其是在随机环境下。

[1] Berner,Christopher,等“大规模深度强化学习的Dota 2”arXiv预印本arXiv:1912.06680 (2019)。

[2] Pathak,Deepak,等,“自我监督预测的好奇心驱动的探索。”计算机视觉和模式识别研讨会会议录。2017.

[3]布尔达,尤里,等。“随机网络蒸馏探索。”学习表征国际会议。2018.

[4]谢瓦利埃-博伊西维特、马克西姆、卢卡斯·威廉姆和苏曼帕尔。"开放式健身房的极简网格世界环境."Github知识库(2018)。回搜狐多看

负责编辑:


以上就是设计一个简单有效的强化学习探索算法,Aauto有了新的思路300171的全部内容了,喜欢我们网站的可以继续关注进滢股票网其他的资讯!