全文总字数:6218字
1. 研究目的与意义(文献综述)
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益[1]。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为[2]。博弈论是二人或多人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。在现代的人工智能(artificial intelligence,ai)领域,往往会将强化学习与博弈论相结合,以设计出更强大的人工智能,例如将蒙特卡罗算法与博弈论相结合可以在一些信息不完全的领域取得比较好的效果[3]。
在2016年,deepmind团队开发的alphago程序与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。这证明alphago在围棋领域已经超越了人类水平[4],之后,alphago又在国际象棋和日本将棋等领域也发挥了超越常人的表现[5];2017年,alphago zero的横空出世,标志着在无需先验知识的情况下,机器通过自主学习也能够超过人类[6]。
2. 研究的基本内容与方案
2.1基本内容
(1)基于mcts算法和深度神经网络,结合国内外已有的研究成果,设计并实现五子棋人工智能,用于进行人机对弈。
(2)评估算法的性能,与现有的五子棋ai进行比赛,根据比赛结果优化算法。
3. 研究计划与安排
2020年2月1日-2020年2月28日:掌握技能,具有针对性的学习编程语言,算法,强化学习以及博弈论相关知识,尝试实现已阅读文献中的方法,完成开题报告;
2020年3月1日-2020年3月31日:运用强化学习算法以及博弈论知识,设计五子棋人机博弈算法,从理论和实验上进行验证;
2020年4月1日-2020年4月30日:进一步实现算法,开发五子棋的人机博弈系统;
4. 参考文献(12篇以上)
[1] sutton r s, barto ag. reinforcement learning: an introduction[m]. mit press, 1998.
[2] silver d,schrittwieser j, simonyan k, et al. mastering the game of go without humanknowledge[j]. nature, 2017, 550(7676):354-359.
[3] silver d, huang a,maddison c j, et al. mastering the game of go with deep neural networks andtree search[j]. nature, 2016, 529(7587): 484.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。