1. 研究目的与意义
21世纪,人工智能迅猛发展,并逐渐深入到人们日常生活中的方方面面。深度学习,作为当前火热的人工智能中的主要领域,受到人们的大量关注。深度学习具有较强的感知能力,但缺乏一定的决策能力。强化学习研究长达几十年,具备决策能力,但传统的强化学习算法使用q-table,面对更加接近现实的复杂任务,在很大的状态空间和连续空间下应用不现实。近年来,deepmind等创造性地将深度学习与强化学习两者结合起来,形成了人工智能领域新的研究热点,即深度强化学习,并在诸如游戏、机器人控制、参数优化、机器视觉等领域广泛应用。
游戏是人们生活中不可或缺的娱乐方式,为了给人们带来更好的游戏体验,智能算法的研究非常必要。深度强化学习技术,作为其中一份子,已经在诸如atari、围棋等游戏上取得突出成果,达到专家级水平。星际争霸二,作为广受欢迎的即时策略游戏,已然成为新的更具挑战的深度强化学习研究领域,也提供了一个无与伦比的机会,去探寻许多具有挑战性的新领域。当前,类似星际争霸二的多智能体博弈游戏,人工智能程序暂时无法超越人类顶级玩家的水平,依旧是开放性难题。
本课题借助星际争霸二学习仿真平台,力图研究实现诸如dqn、a3c等经典强化学习算法,通过对实验结果的分析比对来探寻可能的算法改进方向,从而促进人工智能程序水平的提升,推动游戏产业的发展,同时更好地为解决现实各类问题指明出路。
2. 研究内容和预期目标
3. 研究的方法与步骤
(1)了解DQN、A3C等深度强化学习算法框架; (2)了解Tensorflow框架原理,熟悉Tensorflow开发文档;(3)研读baselines中实现的相应强化学习算法代码,掌握整个代码结构;(4)在星际争霸二平台上应用DQN、A3C等算法;(5)通过Tensorboard,针对不同算法训练效果进行比对分析
4. 参考文献
[1] Busoniu L, Babuska R D, Schutter B. A Comprehensive Survey of Multiagent Reinforcement Learning[J]. IEEE Transactions on Systems Man Cybernetics Part C, 2008, 38(2): 156-172.[2] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Netw, 2015, 61(1): 85-117.[3] Mnih V, Kavukcuoglu K, Silver D. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.[4] Guo X, Singh S, Lee H. Deep learning for real-time Atari game play using offline Monte-Carlo tree search planning[C]// International Conference on Neural Information Processing Systems, Kuching, 2014.[5] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay[C]// International Conference on Learning Representations, San Juan, 2016.[6] Richard S S, Andrew G B. Reinforcement Learning: An Introduction(second edition)[M]. Cambridge: MIT Press, 2017. [7] 郭勤. 基于深度强化学习的视频游戏决策模型研究与应用[D]. 赣州: 江西理工大学, 2018.[8] 刘全, 翟建伟, 章宗长. 深度强化学习综述[J]. 计算机学报, 2018, 1(1): 1-27. [9] 石征锦, 王康. 深度强化学习在Atari视频游戏上的应用[J]. 电子世界, 2017, 1(16): 105-106.[10] 彭伟. 揭秘深度强化学习[M]. 北京: 中国水利水电出版社, 2018.
5. 计划与进度安排
(1) 2022年12月24日 — 2022年1月30日
接受毕业设计任务,查阅资料并完成开题报告;
(2) 2022年2月1日 — 2022年2月8日
