欢迎光临
我们一直在努力
您的位置:首页>资讯 >

DeepMind技术鼓励AI玩家在零和游戏中进行合作

在预印本纸,DeepMind描述的新的强化学习技术,在一个潜在的新而强大的方式模型的人类行为。与以前发布的版本相比,它可能导致功能更强大的AI决策系统,这对于希望通过工作场所自动化提高生产力的企业来说是福音。

在“学习解决多人零和游戏中的联盟困境”中,DeepMind(Alphabet的研究部门,其工作主要涉及强化学习),这是一个与软件代理应如何采取行动以最大程度地获得回报有关的AI领域。一种具有点对点合同机制的经济竞争模型,该模型可以在多人游戏中发现并执行代理商之间的联盟。共同作者说,这种联盟形式赋予的优势是,如果代理商单独行动,这种优势就不会存在。

该论文的撰稿人写道:“零和游戏长期以来一直指导着人工智能研究,因为它们既具有最佳响应的丰富策略空间,又具有清晰的评估指标,”“此外,竞争是许多现实世界中能够产生智能创新的多智能体系统的重要机制:达尔文进化论,市场经济和AlphaZero算法,仅举几例。”

DeepMind科学家首先试图从数学上定义结盟的挑战,着重于多人零和游戏中的结盟形成-也就是说,每个参与者效用的得失与损失或得失完全平衡的情况的数学表示。获得其他参与者的效用。他们研究了对称的零和多人游戏(所有参与者都具有相同的行为并根据每个人的行为得到对称的收益的游戏),并且他们试图提供经验结果,表明联盟的形成通常会产生社会困境,因此需要适应玩家。

正如研究人员所指出的,零和多人游戏引入了动态的团队形成和分手的问题。新兴团队必须在自己内部进行协调,以有效参与比赛,就像在足球比赛中一样。团队形成的过程本身可能是一个社会难题,从直觉上讲,玩家应该组建联盟以击败他人,但加入联盟要求个人为更广泛的利益做出贡献,而这与他们的个人利益并不完全一致。此外,必须决定要加入和退出哪些团队,以及如何制定这些团队的战略。

团队尝试了“礼物游戏”,其中玩家(即,经过强化学习训练的特工)从一堆自己颜色的数字筹码开始。在每个玩家的回合上,他们都必须拿出自己的颜色的筹码,然后将其赠予另一位玩家或将其从游戏中丢弃。当没有玩家留下自己颜色的筹码时,游戏结束。获胜者是所有颜色筹码最多的玩家,获胜者平均分得价值“ 1”,所有其他玩家得到的分红为“ 0”。

研究人员发现,玩家们经常自私地行动,ho积筹码,尽管如果两个经纪人同意交换筹码,他们会取得更好的结果,却导致三向抽奖。团队将其理论化是因为,尽管两个玩家可以互相信任,但他们本来可以为联盟取得更好的结果,但是每个人都可以说服对方提供筹码然后放弃交易,从而获得收益。

也就是说,他们断言,如果存在支持合作行为的机构,强化学习就能适应。这就是合同的产生之处。研究人员提出了一种将合同纳入游戏的机制,其中每个玩家都必须提交要约,包括(1)选择合作伙伴,(2)针对该合作伙伴的建议行动,以及(3)玩家承诺采取。如果两个参与者提供的合同相同,则它们将具有约束力,也就是说,环境将强制执行承诺的操作。

该团队报告说,一旦代理商能够签署具有约束力的合同,筹码就可以在“赠送游戏”中自由流动。相比之下,没有合同和它们所赋予的相互信任的好处,就没有芯片交换。

共同作者写道:“我们的模型为进一步的工作提出了几种途径。”“最明显的是,我们可能会在具有较大状态空间的环境中考虑合同……更普遍的是,发现合同系统如何在多主体学习动态中出现并持续存在而又不直接施加强制执行机制,将是令人着迷的。这种追求最终可能导致从人工智能到社会学和经济学的有价值的反馈循环。”

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。