基于机器学习的扑克博弈算法的研究开题报告-开题报告网

1. 研究目的与意义

1.1 课题研究背景

(1) 棋牌游戏是人们日常生活中消遣娱乐的方式之一，主要有扑克、斗地主、中国象棋、军棋、五子棋、麻将等。在大部分扑克游戏中，玩家无法得到全部的牌面信息，同时发牌也是个独立的随机过程。因此扑克游戏同时具有非完备性和非确定性，例如在江浙一带流行的明牌十三张（也有叫大菠萝），每回合根据发牌来摆明牌，但对手仍可以隐藏自己的弃牌，最终根据摆牌的大小来确定得分关系。

(2) 不久前，人工智能libratus与四名顶尖德州扑克选手之间的“人机大战”，最终以人工智能胜利告终。2016年，alphago击败职业九段围棋选手李世石，轰动一时，次年，又与排名世界第一的人类选手柯洁对战，3：0获胜。再往前追溯，击败国际象棋世界冠军的深蓝，都是通过一定算法和计算，按照棋牌规则进行博弈。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究内容和预期目标

采用强化学习进行扑克博弈算法的研究

（1）研究国内外强化学习领域的资料，尤其是学习解决非完备信息领域的算法。

（2）确定并实现一个出牌算法，应用于扑克游戏的出牌策略中。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究的方法与步骤

（1）学习概率论与统计学相关知识，了解国内外强化学习方面的知识，如蒙特卡洛方法、minimax算法，虚拟遗憾最小化算法

（2）学习扑克游戏——明牌十三张的规则，将游戏规则与强化学习思想相结合，对牌进行编码，写出判断牌型得分的方法，用来进行蒙特卡洛模拟。在此基础上，利用minmax算法，减少搜索深度。

（3）利用蒙特卡洛方法模拟大量扑克对局数据，标注胜负，生成扑克游戏的决策，将其应用在扑克博弈算法。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 王鹏程.基于深度强化学习的非完备信息机器博弈研究[d].哈尔滨工业大学;2017年

[2] 王雪松，朱美强.强化学习原理及其应用[m].北京科学出版社 2014.6

[3] 宋佳佳.部分观测马尔科夫决策过程的强化学习问题研究[d].2017.2

[4] 谢丽娟，陈焕文．部分可观测markov环境下的激励学习综述[j]．长沙电力学院学报．2002.1

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

5. 计划与进度安排

（1）2022年12月28日-2022年1月1日：学习概率论与统计学相关知识，学习国内外强化学习方面的知识，尤其是蒙特卡洛方法、minmax算法等。

（2）2022年1月1日-2022年3月1日：使用代码执行蒙特卡洛方法，并生成蒙特卡洛搜索树，将马尔科夫过程应用于扑克博弈算法中。

（3）2022年3月1日-2022年4月15日:进一步完善算法，提高胜率。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于机器学习的扑克博弈算法的研究开题报告

1. 研究目的与意义

2. 研究内容和预期目标

3. 研究的方法与步骤

4. 参考文献

5. 计划与进度安排

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义

2. 研究内容和预期目标

3. 研究的方法与步骤

4. 参考文献

5. 计划与进度安排

您可能感兴趣的文章

最新文档

联系我们