混合合作竞争环境下的多智能体参与者评价外文翻译资料

 2023-04-02 04:04

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


混合合作竞争环境下的多智能体参与者评价

摘要

我们研究了将深度强化学习用于多智能体领域。首先,我们分析了传统的算法用于多智能体环境下的困难:Q-learning会受到环境不稳定性的挑战,而policy gradient方法在智能体数目增多时,会有variance变大的问题。因此,我们提出了一个actor-critic方法的变种,在考虑其他智能体的action policy的同时,能够成功地学到多智能体的协同policy。另外,我们还引入了一种训练规则,它集成了各个智能体的policy,来得到一个更加鲁棒的多智能体policy。我们展示了我们的方法相比现存方法在既合作又竞争的环境下的优势,在这种环境下, 智能体群体能够发现各种物理和信息层面上的合作策略。

一、引言

强化学习(RL)近来被应用到解决许多挑战性问题上去, 比如玩游戏和机器人上。在工业应用中, RL可以作为大型系统的有效组成部分,比如用于数据中心的冷却。大多数RL的成功应用都时在单智能体场景下, 在此场景下,无须建模与预测环境中其他行为体。

但是,也有很多重要的应用场景牵涉到多个智能体之间的交互,在这种共同的交互演化过程中,会有新的行为出现,问题也会变得更加复杂。 比如说,多个机器人的控制,语言的交流,多玩家的游戏,以及社会困境的分析,这些都是多智能体的场景。相关的问题,比如层级强化学习(hierarchical reinforcement learning)也可以视作多智能体的系统,因为多个层级就可以等价视作多个智能体。另外,多智能体自我对弈(self-play)最近也被表明是一个有效的学习范式。成功地把强化学习扩展到多智能体的环境下对于建造能够与人类或者智能体之间互相交互的智能系统非常重要。

不幸的是,传统的RL方法,比如Q-Learning或者policy gradient都很不适用于多智能体环境。一个问题是,在训练过程中,每个智能体都在变化,而且每个智能体的角度来看,环境都会变得不稳定(以一种智能体自己的policy无法解释的方式)。这给训练稳定性带来了挑战,并且阻碍了直接利用先前的经验重放(原文是experience replay,其实就是off-policy中常用的一种数据去相关的方法),这对于稳定深度Q-learning至关重要。另一方面,policy gradient方法,在要求多智能体协作的时候通常会有很高的方差(variance)。或者,可以使用基于模型的策略优化,其可以通过反向传播学习最优策略,但是这需要世界动力学的一个(可微分)模型和关于智能体之间相互作用的假设。将这些方法应用于竞争环境也是优化的挑战从对抗训练方法的臭名昭着的不稳定就可以看出这一点。

在这项工作中,我们提出了一个通用的多智能体学习算法:(1)可以学习到在执行时只使用本地信息(即它们自己的观察)的策略,(2)不假设环境动力学的可微模型或智能体之间通信方法的任何结构,(3)不仅适用于合作交互而且适用于涉及物质和信息行为的竞争或混合交互环境(指合作和竞争的混合环境)。能够在合作竞争的混合环境中行动的能力对智能体来说可能是至关重要的;虽然竞争性训练提供了一个自然的学习条件[30],智能体也必须在执行的时候展示出合作的行为(例如与人类)。

我们采取分散执行,集中训练的框架,使policy能使用额外的信息来缓解训练压力,只要这些信息在测试时间没有使用。Q-learning是天然无法胜任,如果不对环境做一些额外的结构上的假设,因为Q函数一般来说是不能在训练和测试的时候包含不同的信息的。因此,我们提出了一种 actor-critic policy gradient方法的简单的扩展,critic增加了其他智能体的policy的额外信息,actor则只能接触到本地的信息(也就是该智能体自身的)。训练完成后,只有local actor在执行阶段使用,以分散的方式执行,同样适用于合作和竞争环境。由于集中的critic函数明确地使用了其他智能体的policy,我们额外地展示了智能体可以在线学习其他代理人的近似模型并有效地用到他们自己的policy学习过程中去。我们还会介绍一种提高多智能体policies稳定性的方法,通过policies的集成,因此这需要强有力的互动与各种合作者和竞争对手的policy。我们通过实验显示出我们方法相比现有的方法在合作以及竞争的环境下的优越性,在这种环境下,智能体群体能够发现复杂的物理和交流协调策略。

二、相关工作

多智能体设置下,最简单的学习方法是独立使用可学习的智能体。这曾经被文献[34]使用Q-learning尝试,但是在实际中效果并不好。正如我们将要展示的那样,独立学习的policy gradient方法也表现不佳。一个问题是,在训练过程中,每个智能体的policy都会发生变化,从而导致非固定的环境,并妨碍经验的重复应用(expericen replay)。以前的工作试图通过输入其他智能体的policy参数来解决这个问题,将迭代索引显式地添加到重放缓冲区,或使用重要性采样[9]。以前深入的Q-learning方法已经在文献[33]中进行了研究,以训练相互竞争的Pong智能体。

智能体之间的相互作用的本质可以是合作的,竞争的,或者两者兼而有之。很多算法只针对某一种特定的交互方式进行了设计。大多数研究是合作的设置,如乐观和滞后的Q函数更新策略[15,21,25],其中假设其他智能体的行为是为了提高集体回报。另一种方法是通过共享policy的参数间接达成合作[12],但这需要同质化智能体的能力。这些算法通常不适用于竞争或竞争合作的混合设置。参见[26,4]了解有关多智能体学习方法和应用的调研。

与我们的工作同时,[7]提出了一个类似的想法,使用policy gradient的方法以及集中的critic,并在星际争霸的微观控制任务上测试了他们的方法。他们的方法在以下方面与我们有所不同:(1)他们为所有的智能体只学习了一个单一的中央critic,而我们为每个智能体都学习了一个集中的critic,这允许具有不同奖励函数的智能体,包括在竞争环境下(2)我们考虑了智能体之间有明确通信的环境,(3)他们将周期性policy与前馈critic结合起来,而我们的实验则是使用前馈policy(虽然我们的方法适用于周期性policy),(4)我们学习的是连续的policy,而他们学习的是离散的。

最近的工作集中在学习智能体之间的基础协作通信协议以解决各种任务[29,8,24]。但是,这些方法通常只适用于以下情况,也即智能体之间的通信是通过专用的,可微分的通信通道进行的。

我们的方法需要明确地建模其他智能体的决策过程。这种建模的重要性已经被强化学习[3,5]和认知科学群体所认识到[10]。 [13]强调了对其他智能体决策过程鲁棒的重要性,就像其他人一样通过建立贝叶斯决策模型。我们也吸收了这种鲁棒性的考量,通过要求智能体与任何其他智能体的可能的policy的集成进行交互来实现,这提高了智能体的训练过程中的稳定性和训练后的鲁棒性。

三、 研究背景

马尔可夫博弈 在这项工作中,我们考虑马尔可夫决策过程的多智能体扩展(MDPs),称为部分可观察马尔可夫博弈[19]。 NN个智能体的马尔可夫博弈定义为描述所有智能体的可能配置的一组状态SS,动作A1,...,ANA1,...,AN和每个智能体的观测值O1,...,ONO1,...,ON。当选择action时,每个智能体使用随机policy pi;theta;i:Oitimes;Ai↦[0,1]pi;theta;i:Oitimes;Ai↦[0,1],根据状态转移函数产生下一个状态T:Stimes;A1times;...times;AN↦S2T:Stimes;A1times;...times;AN↦S2。每个智能体都根据状态和动作获得reward,ri:Stimes;Ai↦Rri:Stimes;Ai↦R,并收到与各自状态相关的观测值:oi:S↦Oioi:S↦Oi。初始状态由分布rho;rho;确定:S↦[0,1]S↦[0,1]。每个智能体旨在最大化自己的总预期回报Ri=sum;Tt=0gamma;trtiRi=sum;t=0Tgamma;trit,其中gamma;gamma;是折扣因子,TT是时间范围。

Q-Learning和深度Q网络(DQN) Q-Learning和DQN [23]是很流行的强化学习,并已被应用于多智能体环境[8,35]。 Q-Learning利用的动作值函数Qpi;(s,a)=E[R|st=s,at=a]Qpi;(s,a)=E[R|st=s,at=a]来生成policy pi;pi;。这个Q函数数可以递归地重写为Qpi;(s,a)=Es′[r(s,a) gamma;Ea′sim;pi;[Qpi;(s′,a′)]]Qpi;(s,a)=Es′[r(s,a) gamma;Ea′sim;pi;[Qpi;(s′,a′)]]。 DQN通过最小化损失来学习到最优policy对应的动作值函数Qlowast;Qlowast;

L(theta;)=Es,a,r,s′[(Qlowast;(s,a|theta;)minus;y)2] L(theta;)=Es,a,r,s′[(Qlowast;(s,a|theta;)minus;y)2],其中y=r gamma;maxa′Qmacr;lowast;(s′,a′)y=r gamma;maxa′Qmacr;lowast;(s′,a′)

其中Q是目标Q函数,其参数用最新的theta;theta;的周期性地更新,这有助于稳定训练。稳定DQN的另一个重要组成部分是使用一个经验重放缓冲区DD,它包含元组(s,a,r,s′)(s,a,r,s′)。Q学习可以直接应用于多智能体设置,让每个智能体学习一个独立的最优函数QiQi [34]。但是,因为智能体随着学习的进展独立地更新他们的policy,从任何一个智能体的角度来看,环境都会变得不固定,这违反了Q学习收敛所需的马尔可夫假设。另一个在[9]中观察到的困难是,经验重放缓冲区不能用于这样的多智能体设置,因为一般来说,当pi;ine;pi;′ipi;ine;pi;i′时,P(s′|s,a,pi;1,...,pi;N)ne;P(s′|s,a,pi;′1,...,pi;′N)P(s′|s,a,pi;1,...,pi;N)ne;P(s′|s,a,pi;1′,...,pi;N′)。

策略梯度(PG)算法 策略梯度方法是各种RL任务的另一个选择。主要思想是直接调整策略的参数theta;theta;以便于通过沿nabla;theta;J(theta;)nabla;theta;J(theta;)的方向进行前进来最大化目标J(theta;)=Essim;ppi;,asim;pi;theta;[R]J(theta;)=Essim;ppi;,asim;pi;theta;[R]。运用先前定义的Q函数,策略的梯度可以如[32]一样写成:

nabla;J(theta;)=Essim;ppi;,asim;pi;theta;[nabla;theta;logpi;theta;(a|s)Qpi;(s,a)] nabla;J(theta;)=Essim;ppi;,asim;pi;theta;[nabla;theta;logpi;theta;(a|s)Qpi;(s,a)]

其中ppi;ppi;就是状态分布。策略梯度定理启发了几个实际算法,它们经常在估计Qpi;Qpi;的方式上不同。例如,可以简单地使用一个样本返回Rt=sum;Ti=tgamma;iminus;triRt=sum;i=tTgamma;iminus;tri,这就是REINFORCE算法[37]。或者,也可以通过TD learning来学习真实动作值函数的近似函数Qpi;(s,a)Qpi;(s,a)[31];这个Qpi;(s,a)Qpi;(s,a)被称为批评者,并演化出了各种各样的actor-critic算法[31]。

众所周知,策略梯度方法会有高方差梯度估计。这在多智能体设置中更加加剧了;因为智能体的reward通常取决于许多智能体的动作,只有智能体自己的动作(当智能体的优化过程中没有考虑到其他智能体的动作时)的reward表现出更多的可变性,从而增加了其梯度的方差。下面,我们展示一个简单的设定,在此设定下梯度更新往正确方向前进的概率随着智能体的数量呈指数下降。

命题1. 考虑具有二元行为的N个智能体:P(ai=1)=theta;iP(ai=1)=theta;i,其中R(a1,...,aN)=1a1=...=aNR(a1,...,aN)=1a1=...=aN。我们假设一个不知情的情景,其中智能体被初始化为theta;i=0.5,forall;itheta;i=0.5,forall;i。然后,如果我们用策略梯度估计成本JJ的梯度,我们有:

P(lt;nabla;^J,nabla;Jgt;gt;0)prop;(0.5)N P(lt;nabla;^J,nabla;Jgt;gt;0)prop;(0.5)N

其中,nabla;^Jnabla;^J是单样本的策略梯度估计,而nabla;Jnabla;J则是真实的梯度。

证明见附录。

基线的使用,由于前面提到的非平稳性问题,那些通常用于缓解高方差的价值函数基线,在多智能体的环境下是有问题的。

确定性策略梯度(DPG)算法 也可以将策略梯度框架扩展到确定性策略mu;theta;:S↦Amu;theta;:S↦A。特别是在一定的条件下,我们可以把目标函数J(theta;)=Essim;pmu;[R(s,a)]J(theta;)=Essim;pmu;[R(s,a)]的梯度写成:

nabla;J(theta;)=Essim;D[nabla;theta;mu;theta;(a|s)nabla;aQmu;(s,a)|a=mu;theta;(s)] nabla;J(theta;)=Essim;D[nabla;theta;mu;theta;(a|s)nabla;aQmu;(s,a)|a=mu;theta;(s)]

由于这个定理依赖于nabla;aQmu;(s,a)nabla;aQmu;(s,a),它需要动作空间AA(策略mu;mu;也一样)连续。

深度确定性策略梯度(DDPG)是DPG的变体,其中策略mu;mu;和批评Qmu;Qmu;用深度神经网络近似。 DDPG是一个off-policy策略算法,并从存储在整个训练过程中的重放缓冲中采样样本轨迹。 DDPG也使用了目标网络,如DQN [23]。

四、方法

4.1 多智能体Actor Critic

我们在前面的章节中曾经论证过,朴素的policy gradient方法在简单的多智能体环境下表现不佳,这在第5节的实验中得到了验证。我们在本节中的目标是推导出一个在这样的环境下运行良好的算法。但是,我们希望算法在以下约束条件下运行:(1)学习的策略只能在执行时只能使用本地信息(即它们自己的观察结果),(2)与[24]不同,我们无需知道环境的可微分动力学模型(3)我们对智能体之间的通信方法不做任何结构上的假设(即,我们不假设一个可区分的通信渠道)。 一旦满足上述要求,那么将产生一个通用的多智能体学习算法,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[591059],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。