

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
无师自通---在不借助人类知识的情况下学会围棋
Silver D, Schrittwieser J, Simonyan K
Google,Deepmind,英国,伦敦,West London
摘要:人工智能的长期目标是后天自主学习,并且在一些具有挑战性的领域中实现超人的算法。最近,AlphaGo成为第一个在围棋中击败人类世界冠军的程序。AlphaGo的树搜索使用深度神经网络来评估棋局和选定下棋位置。神经网络是利用对人类专业棋手的移动进行监督学习,同时通过自我博弈进行强化学习来进行训练的。在这里,我们引入了一种没有人类的数据、指导或超越游戏规则的领域知识的、基于强化学习的算法。AlphaGo成为了自己的老师:神经网络被训练用来预测AlphaGo自己的落子选择和胜负。这种神经网络提高了树搜索的强度,从而提高了落子选择的质量和在下一次迭代中的自我博弈能力。从零开始,我们的新程序“AlphaGo Zero”取得了“超人”的成绩,以100比0战胜了的此前公布的AlphaGo版本。
使用监督学习系统来做出与人类棋手一样的决策使人工智能取得了很大进展。然而,人类棋手的数据集通常是昂贵的、不可靠的或根本不可用的。即使在可靠的数据集可用时,人类的认知局限也可能对以这种方式训练的系统的性能施加上限。相比之下,强化学习系统是通过自己的经验训练的,原则上他们能够超越人的能力,并在缺乏人类知识的领域中运作。近年来,利用强化学习训练的深层神经网络在这一目标上取得了快速的进展。这些系统在电脑游戏如Atari和3D虚拟环境上已经超过了人类。但是,在人类智力方面最具挑战性的领域,如围棋领域,使用完全通用的方法没有办法实现与人类相媲美的性能。因为围棋被广泛视为是人工智能的一大挑战——它需要在庞大的搜索空间上进行精确和复杂的前瞻。
AlphaGo是第一个在围棋比赛中实现超人表现的程序。之前发布的我们称之为AlphaGo Fan的版本,在2015年10月击败了欧洲冠军樊麾(法国国家围棋队总教练)。AlphaGo Fan使用两个深层神经网络:一个是策略网络,来输出下一步落子的概率;另一个是价值网络,来输出对棋局的评估,也就是落子的胜率。策略网络最初是通过监督学习来精确预测人类专业棋手的落子,随后又通过策略梯度强化学习对系统进行了增强。价值网络通过使用策略网络进行自我博弈来预测谁是赢家从而完成训练。一旦经过训练,这些网络结合蒙特卡洛树搜索(MCTS)提供对未来局势的预测。运用策略网络来缩小高概率落子的搜索过程,运用价值网络结合蒙特卡洛快速走子策略来评估树中的落子位置。随后开发的版本,我们称之为AlphaGo Lee,用类似的方法,在2016年3月击败具有国际冠军头衔的Lee Sedol(曾获18项国际冠军)。
我们现在的程序AlphaGo Zero,与AlphaGo Fan和AlphaGo Lee存在以下几点的差异。首先,它完全由自我博弈强化学习进行训练,从刚开始的随机博弈开始,就没有任何监督或使用人类的数据。第二,它只使用棋盘上的黑白棋作为输入特征。第三,它使用单一的神经网络,而不是分离的策略网络和价值网络。最后,它使用了一个简化版搜索树,这个搜索树依靠单一的神经网络进行棋局评价和落子采样,不执行任何蒙特卡洛rollout。为了实现上述结果,我们引入一个新的强化学习算法,在训练过程中完成前向搜索,从而达到迅速的提高以及精确、稳定的学习过程。在搜索算法、训练过程和网络架构方面更多的技术差异在方法中进行了描述。
关键词:AlphaGo Zero,蒙特卡洛树搜索,博弈
1 AlphaGo Zero的强化学习
我们在AlphaGo Zero的强化学习中,法使用一个参数为theta;的深度神经网络。该神经网络将棋局和其历史的原始图作为输入,输出落子概率和价值(p,v) = ftheta;(s).。落子概率向量p代表选择每个落子动作a(包括放弃行棋)的概率,pa = Pr(a|s) 。价值v是标量评估,估计当前玩家在棋局状态为s时获胜的概率。这个神经网络将策略网络和价值网络合并成一个单一的体系结构。神经网络包括许多残差块、批量归一化和整流器非线性的卷积层。
AlphaGo Zero的神经网络是通过新的强化学习算法利用自我博弈训练出来的。在每一个棋局s,通过神经网络ftheta;的指导来执行蒙特卡洛搜索。MCTS搜索输出每次落子的概率分布pi;。经过搜索后的落子概率通常比神经网络ftheta;(s)输出的落子概率p更强,因此MCTS被看作是一个强大的策略改进算法。带有搜索的自我博弈——采用改进的以MCTS为基础的策略来选择的每一次落子,然后用游戏的赢家z作为价值的样本——可以被看作是一个强有力的策略评估运算符。我们采用的强化学习算法的主要思想是在策略迭代过程中反复地利用这些搜索算子;神经网络的参数被更新,使移动概率值 更紧密地与改进的搜索概率和自我博弈的赢家(pi;,z)相配;这些新的参数用于下一次的自我博弈迭代,以使搜索更强大。图1展示了自我博弈的训练流程。
【原文】Figure 1 | Self-play reinforcement learning in AlphaGo Zero.
【翻译】图一 AlphaGo Zero中的自我博弈清华学习
蒙特卡罗树搜索使用神经网络ftheta;指导其模拟(见图b)。每条边(,)搜索树存储一个先验概率P (s),访问数N(,),和一个操作值Q。每个模拟都从根状态开始,迭代地选择使Q(s,a) U(s,a)达到最大值的移动(s,a),其中U(s,a) /(1 N(s,a))(12,24),直到遇到叶子节点s0。这个叶结点的位置被展开并求值。
【原文】Figure b | Neural network training
【翻译】图b 神经网络训练
a.这个程序进行自我博弈s1, ..., sT。在每个棋局st,执行一个使用最新的神经网络ftheta; 的MCTS alpha;theta;(见图2)。根据MCTS计算的搜索概率来选择落子,atsim;pi;t。根据游戏规则在最终的棋局st记分,来计算比赛的胜出者z。
b.AlphaGo Zero中的神经网络训练。神经网络以原始棋盘状态st作为输入,通过参数为theta;的多个卷积层,输出代表落子概率分布的向量pt,和一个表示当前玩家在棋局状态st处胜率的标量值vt。神经网络参数theta;朝着使策略矢量pt与搜索概率pi;t相似度最大化的方向更新,同时最大限度地减少预测赢家vt和游戏赢家z之间的误差(见公式(1))。如a所示,在下一次迭代中使用新的参数。
MCTS采用神经网络 来指导它的模拟(见图2)。搜索树中的每个边(s,a)存储先验概率p(s,a)、访问次数n(s,a)和一个动作价值Q(s,a)。每次模拟从根开始,反复选择落子,使置信上限Q(s,a) U(s,a)最大化,其中U(s,a)prop;P(s,a)/(1 N(s,a))(参考文献12, 24),直到遇到叶节点s′。叶子的位置被扩展,通过网络对该叶子的棋局进行扩展和评估,产生先验概率和价值 (P(s,·),V (s)) = ftheta;(s);。在模拟中的每条边(s,a)被更新,访问数量N(s,a)增加,并且将其动作值更新为对这些模拟的平均评价, ,其中s,a→srsquo;表示在从位置s移动a之后,模拟最终达到srsquo;。
【原文】Figure 2 | MCTS in AlphaGo Zero.
【翻译】图二 AlphaGo Zero的MCTS搜索
该神经网络由一个自动强化学习算法训练,该算法使用MCTS来实现每一个动作。首先,神经网络初始化随机权重theta;0。在每个后续迭代ige;1时,都会生成self-play围棋(图1a)。在每个时间步t,一个特定搜索pi;pi;pi;t =alpha;theta;iminus;1 (st)执行使用上一次迭代神经网络ftheta;iminus;1,移动是由采样搜索概率pi;pi;pi;t。
当两名玩家通过时,当搜索值低于辞职阈值时,或者当游戏超过最大长度时,游戏在第T步终止;然后对游戏进行评分,最终奖励rTisin;{- 1, 1}(详细信息请参见方法)。每个时间步t的数据存储为(st,pi;pi;pi;t, zt型),zt型=plusmn;rT是游戏的赢家从当前玩家的角度一步t。并行(图1 b),新的网络参数theta;i训练从数据(年代,pi;pi;pi;,z)取样均匀在所有时间步的迭代self-play (s)。神经网络(p, v) = ftheta;i (s)调整预测值之间的误差最小化v和self-play赢家z,和神经网络的相似性最大化概率p的搜索概率pi;pi;pi;。具体来说,根据梯度下降法调整参数theta;的损失函数l金额分别在均方误差和熵的损失。
其中c为控制L2权重正则化水平的参数(防止过拟合)。
(p,v) = ftheta;(s), l = (zminus;v)2 minus;pi; pi; pi;gt;logp c||theta;||2 公式(1)
2 AlphaGo归零训练的实证分析
我们使用强化学习管道来训练我们的程序AlphaGo Zero。训练从完全随机的行为开始,在没有人为干预的情况下进行了大约3天。
在整个训练过程中,我们生成了490万立方米的自我游戏,每个mct使用1600个模拟,相当于每走一步大约0.4秒的思考时间。从2048个位置的70万个小批次中更新了参数。神经网络包含20个残差块(更多细节见方法)。
图3a显示了以训练时间为横轴,使用ELO评分规则时AlphaGo Zero在自我博弈强化学习期间的性能。在整个训练期间学习进展顺利,并没有遭受在相关文献中提及的振荡或灾难性的遗忘。
【原文】Figure 3 | Empirical evaluation of AlphaGo Zero.
【翻译】 图三 AlphaGo Zero的实证评价
图3:AlphaGo Zero的实证评价。自我强化学习的表现。图3显示每个特定球员的表现alpha;theta;i从每个迭代的强化学习AlphaGo零。Elo评分是通过不同玩家之间的评估游戏计算出来的,每个步骤使用0.4秒的思考时间(参见方法)。为了进行比较,还展示了一个类似的玩家,使用KGS数据集,通过监督学习从人类数据训练。人类专业动作预测精度。情节显示了神经网络ftheta;i的准确性,在每个迭代self-play我预测人类专业从GoKifu气候资料。准确度测量的是神经网络赋予人类移动最高概率的位置百分比。最后给出了一个经过监督学习训练的神经网络的精度。c人类职业游戏结果的均方误差(MSE)。情节展示了神经网络的均方误差ftheta;i, self-play我每次迭代,在预测的结果人类GoKifu气候资料的专业游戏。MSE在实效性zisin;{- 1, 1}和euralnetworkvalue v之间,由afactorof 14缩放到距离[0,1]。最后给出了一个经过监督学习训练的神经网络模型。
令人惊讶的是,AlphaGo Zero在36小时后就超越了李世石;作为对比,李世石接受了数月的训练。72小时后,我们对AlphaGo Zero与击败李世石的AlphaGo Lee的精确版本进行了评估,采用了首尔人机比赛中使用的2小时时间控制和比赛条件(参见方法)。AlphaGo Zero使用一台带有4个张量处理单元(TPUs)的机器29,而AlphaGo Lee分布在多台机器上,使用48个TPUs。AlphaGo Zero以100比0击败了AlphaGo Lee(参见扩展数据图4和补充信息)。
为了评估自我强化学习的优点,与从人类数据学习相比,我们训练了第二个神经网络(使用相同的结构)来预测KGS数据集中的专家动作;与之前的工作12、30-33相比,该方法获得了最先进的预测精度(分别参见扩展数据表1和表2)。值得注意的是,尽管有监督学习能够获得更高的移动预测精度,但自我学习的玩家整体表现要好得多,在最初24小时的训练中就击败了人工训练的玩家。这表明alphago在策略上与人类棋类完全不同。
独立的体系结构和算法的贡献,我们比较了神经网络的性能架构与先前AlphaGo零神经网络架构中使用AlphaGo李(参见图4)。四个神经网络创建,使用单独的政策和价值网络,如AlphaGo李,或结合政策和价值网络,如AlphaGo零;使用AlphaGo Lee的卷积网络架构或者AlphaGo Zero的剩余网络架构。在经过72小时的自玩训练后,AlphaGo Zero生成了一组固定的自玩游戏数据,对每个网络进行训练,使其损失函数(方程1)最小化。在AlphaGo中,使用剩余网络更精确,实现更低的错误,并将性能提高了600多个Elo。把政策和价值结合在一起的透镜系统轻微地降低了预测的准确性,但却降低了价值错误,提高了alphago在其他600埃左右的表现。
【原文】Figure 4 | Comparison of neural network architectures in AlphaGo Zero and AlphaGoLee
【翻译】 图4 AlphaGo Zero和AlphaGo Lee中神经网络结构的比较
AlphaGo Zero和AlphaGo Lee中神经网络架构的比较。比较使用单独(sep)或组合策略和值网络(dual)以及使用卷积(conv)或剩余网络(res)的神经网络体系结构。“dual-res”和“sep-conv”的组合对应于使用a
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19767],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
