- 文献综述(或调研报告):
移动机器人的路径规划问题始终是国内外机器人研究领域的热门话题,众多的学者在路径规划研究上做出了大量的贡献。在机器人路径规划问题研究中,在文献[2]中针对室内动态非结构化环境下的移动机器人路径规划问题,提出了一种将A*算法与人工势场相结合的路径规划方法。主要思路为:在全局路径规划中使用A*算法,同时采用改进的人工势场方法对相邻两节点进行路径平滑和优化处理。该方法不但能够充分利用已知环境信息生成全局最优路径,而且还能及时处理所遇到的随机障碍信息,从而提高机器人整体路径规划的性能。采用改进人工势场的局部路径规划方法对A*方法进行优化,可以有效增大A*方法的栅格粒度,降低A*方法运算量,同时A*算法可以弥补人工势场缺乏全局信息的缺点。
路径规划算法中有较多基于强化学习的方法,针对强化学习算法进行改进的方法有以下两种:文献[1]中着重于对于强化学习算法本身的优化,并将之应用于目标驱动的视觉移动任务。在该文献中解决了深度强化学习的两个解决不充分的问题:(1)缺乏对新目标的泛化能力;(2)数据效率低下。一般的深度强化学习方法仅依赖于当前状态,并且目标隐式地嵌入在模型参数中。而文献[1]中所提出的方法是结合当前状态和目标共同作用的条件下学习如何采取下一步行动。该方法应用于路径规划问题中能够使深度强化学习方法收敛速度更快、能够更好地推广到其他场景中。在算法方面的改进还有文献[4]中所提出的单链序贯回溯Q-learning算法,该算法的核心是引入了记忆功能。通过记录相关参数,利用Q-learning算法迭代公式,重复地迭代被记录的状态-动作,从而一步到位更新所有经历过的状态动作所对应的Q值,使得某一状态的动作决策能受到后续动作决策的影响。将这一算法应用于路径规划中是将每一次路径规划的尝试都看作是一系列数据的传递,这种数据传递方式一方面使得靠近目标状态的区域更快收敛;另一方面使终点处产生的评估值能够及时反馈回来,从而使开始阶段的动作决策受其后续状态的影响,极早地识别错误动作决策,避免无意义的搜索,通过回溯的思想改善Q-learning学习中数据传递的滞后性,使收敛速度加快。此外,在解决路径规划问题上,文献[5]中选择使用SARSA(lambda;)算法,与Q-learning算法不同,该算法适用于连续的感知状态和动作空间,更加适用于面向真实世界的机器人。
针对路径规划这一问题还有从环境信息处理的角度出发所提出的改进方案,由以下两篇文献中提出的方案在解决路径规划问题时具有很好的参考价值。在文献[3]中针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法。该方法主要改进点在于根据已知环境信息在地图中构建人工势能场,障碍物处势能值为零,目标点具有最大的势能值,这时人工势能场中每个点的势能值就代表该状态可获得的最大累积回报。改进算法收敛速度更快,收敛过程更稳定。针对原有Q-learning算法在较大环境和复杂的环境中学习时间长、收敛速度慢、试错方式无法应用于真实的环境中的缺陷,文献[6]所提出的路径规划前加入环境初始信息的方法有效防止了移动体陷入环境中的凹形陷阱,与以往路径规划算法不同的是该方法在路径规划前对环境信息进行剔除,缩小了可行路径的范围,这一方法加快了路径规划的收敛速度,同时取消对障碍物的试错学习, 使算法在初始状态就能有效避开障碍物, 适用于真实环境中直接学习。
参考文献:
[1] Zhu Y, Mottaghi R, Kolve E, et al. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning[J]. 2016:3357-3364.
[2] 曲道奎, 杜振军, 徐殿国,等. 移动机器人路径规划方法研究[J]. 机器人,2008, 30(2):97-101.
[3] 宋勇, 李贻斌, 李彩虹. 移动机器人路径规划强化学习的初始化[J]. 控制理论与应用, 2012, 29(12):1623-1628.
[4] 许亚. 基于强化学习的移动机器人路径规划研究[D]. 山东大学, 2013.
