基于机器学习的扑克博弈算法的研究开题报告

 2022-02-13 18:17:19

1. 研究目的与意义

1.1 课题研究背景

(1) 棋牌游戏是人们日常生活中消遣娱乐的方式之一,主要有扑克、斗地主、中国象棋、军棋、五子棋、麻将等。在大部分扑克游戏中,玩家无法得到全部的牌面信息,同时发牌也是个独立的随机过程。因此扑克游戏同时具有非完备性和非确定性,例如在江浙一带流行的明牌十三张(也有叫大菠萝),每回合根据发牌来摆明牌,但对手仍可以隐藏自己的弃牌,最终根据摆牌的大小来确定得分关系。

(2) 不久前,人工智能libratus与四名顶尖德州扑克选手之间的“人机大战”,最终以人工智能胜利告终。2016年,alphago击败职业九段围棋选手李世石,轰动一时,次年,又与排名世界第一的人类选手柯洁对战,3:0获胜。再往前追溯,击败国际象棋世界冠军的深蓝,都是通过一定算法和计算,按照棋牌规则进行博弈。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

采用强化学习进行扑克博弈算法的研究

(1)研究国内外强化学习领域的资料,尤其是学习解决非完备信息领域的算法。

(2)确定并实现一个出牌算法,应用于扑克游戏的出牌策略中。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

(1)学习概率论与统计学相关知识,了解国内外强化学习方面的知识,如蒙特卡洛方法、minimax算法,虚拟遗憾最小化算法

(2)学习扑克游戏——明牌十三张的规则,将游戏规则与强化学习思想相结合,对牌进行编码,写出判断牌型得分的方法,用来进行蒙特卡洛模拟。在此基础上,利用minmax算法,减少搜索深度。

(3)利用蒙特卡洛方法模拟大量扑克对局数据,标注胜负,生成扑克游戏的决策,将其应用在扑克博弈算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] 王鹏程.基于深度强化学习的非完备信息机器博弈研究[d].哈尔滨工业大学;2017年

[2] 王雪松,朱美强.强化学习原理及其应用[m].北京科学出版社 2014.6

[3] 宋佳佳.部分观测马尔科夫决策过程的强化学习问题研究[d].2017.2

[4] 谢丽娟,陈焕文.部分可观测markov环境下的激励学习综述[j].长沙电力学院学报.2002.1

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)2022年12月28日-2022年1月1日:学习概率论与统计学相关知识,学习国内外强化学习方面的知识,尤其是蒙特卡洛方法、minmax算法等。

(2)2022年1月1日-2022年3月1日:使用代码执行蒙特卡洛方法,并生成蒙特卡洛搜索树,将马尔科夫过程应用于扑克博弈算法中。

(3)2022年3月1日-2022年4月15日:进一步完善算法,提高胜率。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版