欢迎光临
我们一直在努力
您的位置:首页>机器人DIY >

研究人员开发了在强化学习中提高样本效率的技术

在强化学习中,通常的目标是促使AI驱动的代理通过奖励系统完成任务。这可以通过学习从状态到最大化预期收益(策略梯度)的动作的映射(策略)来实现,也可以通过计算给定状态-动作对的预期收益来推断这种映射来实现。

基于模型的强化学习(MBRL)旨在通过从代理与环境的交互中学习动力学模型来改善此情况,该模型可用于许多不同任务(即可移植性)并用于计划。为此,谷歌,牛津大学和加州大学伯克利分校的研究人员开发了一种方法,即“探索策略一”(对欧内斯特·克莱恩(Ernest Cline)的热门小说“就绪玩家一”的暗示不那么点头)-通过探索获取用于训练世界模型的数据共同优化奖励和减少模型不确定性的政策。最终结果是,用于数据收集的策略在真实环境中也能很好地执行,并且可以用于评估。

Ready Policy One采用主动学习方法,而不是专注于优化。换句话说,它试图直接学习最佳模型而不是学习最佳策略。量身定制的框架使Ready Policy One可以适应探索的水平,以在最少的样本数中改进模型,并且当传入数据类似于已采集的数据时,一种机制会在任何给定的收集阶段停止收集新样本。

在一系列实验中,研究人员评估了他们针对MBRL的主动学习方法是否比现有方法更具样本效率。特别是,他们在研究公司OpenAI的Gym环境中对一系列连续控制任务进行了测试,发现与最新模型架构结合使用,Ready Policy One可以带来“最先进”的效率。

该研究的合著者写道:“我们对这项工作的许多未来方向感到特别兴奋。”“最明显的是,由于我们的方法与MBRL的其他最新进展正交,[Ready Policy One]可以与最新的概率体系结构相结合……此外,我们可以采取分层方法,确保我们的勘探政策保持核心行为,但在某个遥远的未开发区域最大化熵。这将需要行为表示以及行为空间中的距离的一些概念,并且可能会导致采样效率提高,因为我们可以更好地针对特定的状态-动作对。”

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。