您的位置: 主页 > 人工智能学家 > OpenAI新研究成果:如何让AI智能体学会合作、竞争与交流?

OpenAI新研究成果:如何让AI智能体学会合作、竞争与交流?

时间: 2017-06-12阅读:

概要:在多智能体环境中,智能体之间对资源的恶性竞争现象无疑是通往通用人工智能路上的一块绊脚石。

来源:雷锋网


在多智能体环境中,智能体之间对资源的恶性竞争现象无疑是通往通用人工智能路上的一块绊脚石。


多智能体环境具有两大实用的特性:首先,它提供了一个原生的课程(Natural curriculum)——这里环境的困难程度取决于竞争对手的能力(而如果你是与自身的克隆进行竞争,则该环境与你的能力等级是相当匹配的);其次,多智能体环境不具有稳定的平衡:因为无论智能体多么聪明,总是存在着更大压力使得它更加聪明。这些环境与传统环境有着非常大的不同,因此还有更多的研究有待进行。


研究员发明了一种新算法——MADDPG。该算法适用于多智能体环境下的集中式学习(Centralized learning)和分散式执行(Decentralized execution),并且允许智能体之间学会协作与竞争。



四个红色智能体通过MADDPG算法进行训练,它们的目标任务是追逐图中的两个绿色智能体。其中四个红色智能体为了获得更高的回报,学会了互相配合,共同去追捕其中一个绿色智能体。而与此同时,两个绿色智能体也学会了分开行动,其中一个智能体负责将四个红色智能体吸引开,然后另一个绿色智能体则乘机去接近水源(由蓝色圆圈表示)。


事实上,MADDPG算法并非完全原创,它扩展自一个被称为DDPG的增强学习(Reinforcement learning)算法,灵感则来源于基于Actor-Critic的增强学习技术。还有许多其它团队也正在探索这些算法的变种以及并行化实现。


该算法将模拟中的每个智能体视为一个“Actor”,并且每个Actor将从“Critic”那儿获得建议,这些建议可以帮助Actor在训练过程中决定哪些行为是需要加强的。通常而言,Critic试图预测在某一特定状态下的行动所带来的价值(比如,我们期望能够获得的奖励),而这一价值将被智能体(Actor)用于更新它的行动策略。这么做比起直接使用奖励来的更加稳定,因为直接使用奖励可能出现较大的差异变动。另外,为了使训练按全局协调方式行动的多个智能体(Multiple agents that can act in a globally-coordinated way)变得可行,还增强了Critic的级别,以便于它们可以获取所有智能体的行为和观察,如下图所示。



据悉,MADDPG中的智能体在测试期间不需要访问Critic,智能体们将根据自己的观察和对其它代理行为的预测而行动。由于每个智能体都有各自独立的集中式Critic,该方法能被用于模拟智能体之间任意的奖励结构,包括奖励冲突的对抗性案例。



OpenAI的研究员已经在多项任务中测试了该方法,并且实验结果表明,MADDPG在所有任务中的表现均优于DDPG。上边的动图自左向右依次展示了:两个AI智能体(蓝色圈)尝试前往指定地点,并且它们学会分开行动,以便于向反对智能体(红色圈)隐藏自己的目标地点;其中一个智能体将地标传达给另一个智能体;最后是三个智能体通过协调共同到达各自的地标,并且途中没有发生碰撞。





上图展示了,通过MADDPG训练的红色智能体比起通过DDPG训练的红色智能体表现出了更加复杂的行为。在上图的动画中,通过MADDPG(左图)和DDPG(右图)训练的红色智能体试图追逐绿色智能体,这期间它们可能需要通过绿色的森林或者躲避黑色的障碍物。


传统增强学习


当前,梯度策略方法(Policy gradient methods)面临着更多的挑战。因为当奖励不一致的时候,这些方法很难得到正确的策略,并且表现出了高度的差异。另外研究员还发现,加入了Critic之后虽然提高了稳定性,但是依然无法解决多个环境之间诸如交流合作的问题。并且对于学习合作策略问题,在训练过程中综合考虑其它智能体的行为似乎是非常重要的。


初步研究


在开发MADDPG之前,采用分散技术(Decentralized techniques)的时候,他们注意到,如果 Speaker发送不一致的消息,Listener通常会忽略掉发言智能体。然后,后者会将所有与Speaker的消息有关的权重设置为0,从而高效地忽略掉这些信息。


然而,一旦出现了这种情况,训练过程将难以恢复,因为缺乏了有效的反馈,Speaker永远也无法知道自己是否正确。为了解决这个问题,研究员发现了一个最近提出的分层强化学习(Hierarchical Reinforcement Learning)技术,该技术强制Listener将Speaker的消息纳入其决策过程。但是这个方案没有起到作用,因为尽管它强制Listener获取Speaker的消息,但这并不能帮助后者弄清哪些是相关的。最终,OpenAI提出的集中式Critic方法帮助解决了这些挑战,它帮助 Speaker了解哪些信息可能与其它智能体的行为是有关的。


下一步


智能体建模在人工智能研究中具有丰富的历史,并且其中许多的场景已经被广泛研究过了。以前的许多研究只在拥有很短的时长和很少的状态空间的游戏中进行。但是深度学习使得研究员们可以处理复杂的视觉输入,另外增强学习为学习长时间行为提供了工具。现在,研究员可以使用这些功能来一次性训练多个智能体,而不需要了解环境的动态变化(环境在每个时间步骤中是如何变化的),并且可以在学习来自环境的高维度信息的同时,解决涉及沟通和语言的更广泛的问题。


最后是OpenAI的一则小广告,如果你对探索不同的方法感兴趣的话,不妨考虑加入OpenAI吧!



来源:雷锋网



欢迎加入未来科技学院企业家群,共同提升企业科技竞争力

一日千里的科技进展,层出不穷的新概念,使企业家,投资人和社会大众面临巨大的科技发展压力,前沿科技现状和未来发展方向是什么?现代企业家如何应对新科学技术带来的产业升级挑战?


欢迎加入未来科技学院企业家群,未来科技学院将通过举办企业家与科技专家研讨会,未来科技学习班,企业家与科技专家、投资人的聚会交流,企业科技问题专题研究会等多种形式,帮助现代企业通过前沿科技解决产业升级问题、开展新业务拓展,提高科技竞争力。


未来科技学院由人工智能学家在中国科学院虚拟经济与数据科学研究中心的支持下建立,成立以来,已经邀请国际和国内著名科学家、科技企业家300多人参与学院建设,并建立覆盖2万余人的专业社群;与近60家投资机构合作,建立了近200名投资人的投资社群。开展前沿科技讲座和研讨会20多期。  欢迎行业、产业和科技领域的企业家加入未来科技学院


报名加入请扫描下列二维码,点击本文左下角“阅读原文”报名


上一篇:新光学芯片可实现高效“深度学习”
下一篇:Uber是如何用循环神经网络(RNN)预测极端事件的?

相关阅读