不同强化学习方法在不完美信息博弈中的表现比较文献综述

 2023-05-28 01:05

文献综述

文 献 综 述不同强化学习方法在不完美信息博弈中的表现比较摘要:计算机博弈是人工智能领域的热门话题,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。

计算机扑克 AI需要具备不完全信息动态决策、对手误导欺诈行为识别和风险管理等能力。

首先将介绍深度 Q 网络(DQN)、神经虚拟自我博弈(NFSP)和反事实遗憾最小化(CFR)这三种较为流行的强化学习方法的基本原理,之后分析多智能体发展中的问题,最后将探讨计算机扑克智能博弈的未来发展趋势和应用前景。

关键字:非完美信息博弈;强化学习;斗地主;深度 Q 网络;神经虚拟自我博弈;反事实遗憾最小化Comparing the performance of different reinforcement learning methods in games of imperfect informationAbstract: Computer game is a hot topic in the field of artificial intelligence, which has attracted the attention of researchers in the field of artificial intelligence, and has become a favorable platform for the study of cognitive intelligence. Computer poker AI needs to have the capabilities of dynamic decision-making with incomplete information, identification of opponents misleading fraudulent behavior, and risk management. First, we will introduce the basic principles of three popular reinforcement learning methods: Deep Q-Network (DQN), Neural Virtual Self-Play (NFSP) and Counterfactual Regret Minimization (CFR), then analyze the problems in the development of multi-agents, and finally The future development trends and application prospects of computer poker smart games will be discussed.Keywords: Imperfect Information Game; Reinforcement Learning; Fighting Landlords; Deep Q Network; Neural Virtual Self-Game; Counterfactual Regret Minimization1.引言计算机博弈,也被称为机器博弈,一直是人工智能研究中的热门领域覆盖面非常广泛,最广为熟知的是在计算机博弈游戏中的应用,特别是棋牌类的游戏,许多研究者们致力于研发出能够像人类一样思考和决策的游戏智能体。

斗地主是一种很受欢迎的多人游戏,老少皆宜,且种类与玩法十分丰富。

在计算机博弈中,根据博弈中的信息是否能完全公开,分为完美信息博弈和非完美信息博弈两个类型,显然斗地主属于非完美信息博弈类型。

在非完美信息博弈中,不适合于照搬完美信息博弈方法来构造博弈智能体。

比如,非完美信息博弈游戏斗地主博弈中,玩家除能知道已公开的出牌牌张和自己手上牌张外,其余牌张信息是不知道的,也就是不透明的,产生大量未知信息,而且斗地主还含有种类众多的出牌规则,不同的出牌类型和顺序而产生大量的随机性,从而大大增加了决策困难。

目前主要通过强化学习来解决此类非完美信息博弈问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。