1. 研究目的与意义
1.1 课题研究背景
(1) 棋牌游戏是人们日常生活中消遣娱乐的方式之一,主要有扑克、斗地主、中国象棋、军棋、五子棋、麻将等。在大部分扑克游戏中,玩家无法得到全部的牌面信息,同时发牌也是个独立的随机过程。因此扑克游戏同时具有非完备性和非确定性,例如在江浙一带流行的明牌十三张(也有叫大菠萝),每回合根据发牌来摆明牌,但对手仍可以隐藏自己的弃牌,最终根据摆牌的大小来确定得分关系。
(2) 不久前,人工智能libratus与四名顶尖德州扑克选手之间的“人机大战”,最终以人工智能胜利告终。2016年,alphago击败职业九段围棋选手李世石,轰动一时,次年,又与排名世界第一的人类选手柯洁对战,3:0获胜。再往前追溯,击败国际象棋世界冠军的深蓝,都是通过一定算法和计算,按照棋牌规则进行博弈。
2. 研究内容和预期目标
采用强化学习进行扑克博弈算法的研究
(1)研究国内外强化学习领域的资料,尤其是学习解决非完备信息领域的算法。
(2)确定并实现一个出牌算法,应用于扑克游戏的出牌策略中。
3. 研究的方法与步骤
(1)学习概率论与统计学相关知识,了解国内外强化学习方面的知识,如蒙特卡洛方法、minimax算法,虚拟遗憾最小化算法
(2)学习扑克游戏——明牌十三张的规则,将游戏规则与强化学习思想相结合,对牌进行编码,写出判断牌型得分的方法,用来进行蒙特卡洛模拟。在此基础上,利用minmax算法,减少搜索深度。
(3)利用蒙特卡洛方法模拟大量扑克对局数据,标注胜负,生成扑克游戏的决策,将其应用在扑克博弈算法。
4. 参考文献
[1] 王鹏程.基于深度强化学习的非完备信息机器博弈研究[d].哈尔滨工业大学;2017年
[2] 王雪松,朱美强.强化学习原理及其应用[m].北京科学出版社 2014.6
[3] 宋佳佳.部分观测马尔科夫决策过程的强化学习问题研究[d].2017.2
[4] 谢丽娟,陈焕文.部分可观测markov环境下的激励学习综述[j].长沙电力学院学报.2002.1
5. 计划与进度安排
(1)2022年12月28日-2022年1月1日:学习概率论与统计学相关知识,学习国内外强化学习方面的知识,尤其是蒙特卡洛方法、minmax算法等。
(2)2022年1月1日-2022年3月1日:使用代码执行蒙特卡洛方法,并生成蒙特卡洛搜索树,将马尔科夫过程应用于扑克博弈算法中。
(3)2022年3月1日-2022年4月15日:进一步完善算法,提高胜率。
