基于强化学习的黑白棋对弈算法设计与实现开题报告

 2022-01-11 21:24:13

全文总字数:2899字

1. 研究目的与意义(文献综述)

黑白棋在西方和日本很流行。游戏通过相互翻转对方的棋子,最后以棋盘上谁的棋子多来判断胜负。它的游戏规则简单,因此上手很容易,但是它的变化又非常复杂。黑白棋是一种常见的适合两人对弈的棋类游戏,它具有规则简单、对弈时间短的特点,用强化学习方法开发智能体的话,代码容易、训练时间耗费的也不大,适合进行强化学习的相关研究。

强化学习(reinforcement learning, rl)是一种以环境反馈作为输入的、适应环境的机器学习方法。类似于人类的学习方法,智能体(agent)通过不断试错和尝试,并以做某件事带来的奖励作为指导其行为改善的基础进行学习。其本质是一种自学习的系统,它主要通过反复试验,通过有限次的执行行动,以得到最大化奖励,并以此确定最佳答案。智能体强化学习的框架可以采用马尔可夫决策过程[1] (markov decision processes, mdp),并且可以在动态规划的值迭代和策略迭代基础上进行强化学习问题求解。

20世纪60年代,工程学文献首次使用了术语“强化”和“强化学习”来描述试错学习的工程应用。在1989年,watkins提出的q学习[2]进一步拓展了强化学习的应用和完备了强化学习。而在2013年,deepmind发表了利用强化学习玩atari游戏的论文[3],至此强化学习开始了新的十年。三年后master(alphago版本)于2016年12月开始出现于弈城围棋网和腾讯野狐围棋网,取得60连胜的成绩,以其空前的实力轰动了围棋界。之后deepmind 如约公布了他们最新版alphago论文(nature)[4],该论文使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,其中一个是以估值网络来评估大量的选点,而以走棋网络来选择落子。参考alphago的情况,通过设计和实现黑白棋的相关强化学习算法,可以对强化学习进行研究。目前比较知名的强化学习算法有q-learning算法[2]、sarsa算法[5] 深度 q 网络(deep q network,dqn)[3]以及深度确定性策略梯度(deep deterministic policy gradient,ddpg)[6]

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1基本内容

1) 以强化学习为核心,设计并开发黑白棋游戏的相关算法,使其实现模拟人类下棋的效果。

2) 研究现有的基于强化学习的一些棋类算法和其他游戏算法,比较优缺点,进而对开发的算法进行评估分析。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第一阶段(2020年1月14日-2020年2月28日):查阅有关的参考资料并完成开题报告;翻译英文资料,并交予指导教师检查。

第二阶段(2020年3月1日-2020年3月31日):查阅资料,学习如何设计黑白棋游戏的相关强化学习算法。

第三阶段(2020年4月1日-2020年4月30日):实现自己的算法,跑通代码,做出理论的成果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]puterman m l. markov decision processes: discrete stochastic dynamic programming[m].john wiley liskowski, wojciech jaskowski, krzysztof krawiec. learning to play othello with deep neural

networks. arxiv:1711.06583v1, 2017

[14]matthew hausknecht,peter stone. deep reinforcement learning in parameterized action space. arxiv:1511.04143v4,2016

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版