

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
Expert Systems With Applications 62 (2016) 104–115
Contents lists available at ScienceDirect
Expert Systems With Applications
journal homepage: www.elsevier.com/locate/eswa
基于神经网络的移动机器人避障强化学习
Mihai Deguelin a, Gheorghe Mogen b
a汽车与运输工程系,机械工程学院,布拉索夫特兰西瓦尼亚大学,大学街1号,布拉索夫500036,罗马尼亚。
b汽车和运输工程系,机械工程学院,布拉索夫特兰西瓦尼亚大学,大学街1号,布拉索夫500036,罗马尼亚。
文章资讯
文章历史:
2015年10月29日收稿
2016年6月9日修订
2016年6月9日被接受
可于2016年6月11日在网上查阅
关键词:
障碍物规避
神经网络 Q-learning
虚拟现实技术
1. 简介
摘要
本研究提出了一种新的方法来解决机器人在包含静态和动态障碍物的环境中的自主运动问题。这项研究的目的是为移动机器人在包含静止和移动实体的不确定工作空间内提供一个无碰撞的轨迹。所开发的解决方案使用Q-learning和一个神经网络规划器来解决路径规划问题。事实证明,所提出的算法在有全局信息的导航场景中是有效的。机器人的速度可以在计算轨迹之前设定,这在时间有限的应用中提供了很大的优势。该解决方案被部署在虚拟现实(VR)中,以方便可视化和更安全的测试活动,并被部署在一个真正的移动机器人上进行实验验证。该算法与Powerbot的ARNL专有导航算法进行了比较。 结果表明,所提出的解决方案具有良好的转换率,计算速度令人满意。
copy;2016 Elsevier Ltd. 保留所有权
路径规划是自主移动机器人的关键因素之一。自从50年代引入移动机器人平台以来,大多数研究人员在运动规划方面的主要愿望是开发一种能够提供无碰撞轨迹的算法。根据移动机器人使用的环境信息的类型,该主题被分为两个独立的研究领域。 ( de Berg, van Kreveld, Overmars, amp; Schwarzkopf, 2000 ).
第一种方法使用环境的全局知识,意味着在每个时刻,机器人都有关于其位置、运动能力、障碍物和目标的完整信息。这引起了与本地化有关的额外问题。基于良好的定位技术,机器人可以精确地确定其相对于变化的环境的位置 (通常,一个配置空间被用来描述机器人的所有可能的配置;假设导航发生在一个二维工作空间,被分为2:障碍物空间—,和自由空间— ). 在中的导航可以通过多种算法实现 (如SLAM——同步定位和测绘 ( Leonard amp; Durrant-Whyte, 1991 ),基于RSSI的无线定位( Stoep, 2009 ),粒子过滤器的定位( Dellaert, Fox, Burgard, amp; Thrun, 1999 )等)和传感系统(GPS (Montiel amp; Sepuacute;lveda, 2014 ),摄像网络,环境标记等)正如人们所推断的那样,我们有可能提前知道目标是否可以达到,这使其成为人工神经网络的完美候选()。
第二种方法使用范围传感器(声纳(Kim amp; Kim, 2011)、激光(Surmann, Nuuml;chter, amp; Hertzberg, 2003))、红外传感器(Alwan, Wagner, Wasson, amp; Sheth, 2005)或视频摄像头(Seder amp; Petrovic, 2007)检索的本地信息。除了不能保证收敛性之外,科学家们需要解决的一个主要问题是识别和避免局部最小值。在大多数情况下,这种方法并不能保证收敛性。因此,我们决定在本研究中使用全局信息。
在过去的几十年里,许多研究涉及到路径规划问题。提出了各种类型的解决方案:基于网格、势场、几何学或基于人工智能(AI)。基于网格的方法包括在空间上覆盖一个网格。为了获得有效的路径,所有的网格单元(或网格点)都必须包含在空间中。运动规划中最常见的一个 运动规划中最常见的基于网格的算法是(及其变体,和)(Borenstein amp; Koren, 1991; Ulrich amp; Borenstein, 1998)。势场以势能函数的方式对空间进行建模:障碍物被视为排斥性实体,而目标则被视为有吸引力的中心。工作空间被视为一个孤立的宇宙,它致力于使其势能最小化,从而将移动实体(移动机器人)推向目标(Borenstein amp; Koren, 1991)。在几何学方法中,使用最多的是单元格分解和可见度图(Barraquand amp; Latombe, 1991)。可见度图的构建是基于内可视点之间的聚类。使用Dijkstra、(Dechter amp; Pearl, 1985)或(Stentz, 1994)等遍历算法,计算出最短或最优路径(Lozano-Peacute;rez amp; Wesley, 1979)。运动规划的最新研究采用了人工学习技术。Jaradat, Al-Rousan, and Quadan (2011)使用Q-learning来实现动态环境下的运动规划。作者限制了状态空间中的状态数量,从而减少了Q表面的大小,间接地减少了计算时间;但是,收敛性并没有保证。受鸟群的启发,粒子群优化(PSO)也被广泛用于运动规划中(Qin, 2004)。来自候选解决方案空间的每个粒子都试图以最佳方式实现目标,并在每次新的迭代后根据其轨迹历史和其他邻近粒子的 '经验 ',改进其 '经验'。另一种被广泛利用的运动规划方法是模糊逻辑(Reignier, 1994)。最后但并非最不重要的是,神经网络被用来实现无障碍的轨迹(Dezfoulian, Wu, amp; Ahmad, 2013; Fierro amp; Lewis, 1998)。尽管这些人工智能方法中有许多显示出有希望的结果,但只有少数方法真正以避开动态障碍物为目标,甚至更少的方法在真正的测试环境中实施所提出的运动规划解决方案以进行实验验证。
lowast;Corresponding author. Fax: 40 268 418967.
E-mail addresses:mihai.duguleana@unitbv.ro (M. Duguleana), mogan@unitbv.ro
(G. Mogan).
http://dx.doi.org/10.1016/j.eswa.2016.06.021
0957-4174/copy;2016ElsevierLtd.Allrightsreserved.
多层神经网络能够映射非线性函数(Hecht-Nielsen, 1987)。这一特点可以与强化学习结合起来使用,以便在给定环境的先验知识的情况下解决路径规划问题。在这种特殊情况下,Q-learning(Russell amp; Norvig, 2002)被用于以下函数,该函数量化了一个状态动作的质量。
(1)
其中Q是解决方案的集合,S是状态的集合,A是行动的集合。如果移动机器人达到了目标,那么成本,或者更好地说,无碰撞轨迹的奖励是给定的。换句话说,建议的解决方案从工作空间中对每个状态、行动和结果进行采样,作为一个基本的概率分布,有助于计算奖励参数。为了快速收敛,该解决方案进一步使用了前馈神经网络。因此,拟议的解决方案通常会在最初的几个阶段找到一个无碰撞的轨迹。该运动规划器在VR中进行初始测试和有效的可视化,在达到满意的效果后,在一个真实的移动机器人上实现:移动机器人的PowerBot(“PowerBot web-site”, 2015)
2. 文献概述
本研究涉及多个研究领域。下面简要介绍一下目前在这些领域取得的成就。
2.1. 动态环境中移动机器人的避障问题
避免与移动障碍物相撞是一项具有挑战性的任务。为了解决这个问题,研究人员提出了大量的使用局部和全局知识的算法。
在大多数情况下,只知道工作环境的局部信息就意味着要使用反应式的方法,如基于方向或速度的方法。方向性方法从几何学上计算机器人的运动轨迹(Khatib, 1986; Minguez amp; Montano, 2004)。知道了机器人和障碍物的确切坐标,路径规划者可以简单地计算出每个时间实例的欧几里得距离,通过给这个变量设置一个下限,机器人可以在无碰撞的轨迹上移动(Asano, Guibas, Hershberger, amp; Imai, 1985)。基于速度的方法考虑了机器人和最接近的运动障碍物的动能,并将这些数据用于轨迹生成(Large, Laugier, amp; Shiller, 2005)。最常用的基于速度的方法是在1997年引入的动态时间窗(Fox, Burgard, amp; Thrun, 1997)。反应式方法的最大问题之一是,它们需要一个良好的传感系统,可以为任何局部障碍物产生准确的位置坐标。最新的研究使用视频摄像机来获得环境信息并估计场景的动态。例如,一个单一的摄像机可以用来检测地标和环境线索,或者基于一种算法,如基于块的运动估计(Kim amp; Do, 2012),以检测和分类移动障碍。多个摄像头提供立体视觉,使深度感知更容易(Chilian amp; Hirschmuuml;ller, 2009)。过去十年中,市场上推出的另一种类型的传感器是飞行时间(TOF)相机(May amp; Werner, 2006),它是激光测距传感器和经典视频相机的混合体。通常,基于具有相当多的障碍物的环境的局部信息的避障算法依赖于选择最有可能与机器人发生碰撞的障碍物。然而,这种策略很难在真正的移动机器人上实现,因为选择过程本身面临许多问题,例如:
1. 所有的障碍物都被正确感应到了吗?
2. 这是最近的障碍物吗?
3. 这是最危险的障碍物吗?
4. 如果有2个或多个障碍物同时关闭怎么办?
考虑到动态环境的全局表示是可用的,一些最常用的导航算法依赖于势场法的变化。案例包括一些特殊情况,例如目标和机器人都在移动(Ge amp; Cui, 2002; Huang, 2009),或使用谐波函数以完全消除局部最小值(Kim amp; Khosla, 1992)。另一些则使用工作空间(Savkin amp; Wang, 2014)的集成表示或分析方法(Qu, Wang, amp; Plaisted, 2004)来实现无碰撞轨迹。
使研究转向非常规运动规划算法的主要问题之一是计算时间。最近,一些研究采用了人工智能,因为许多方法收敛得更快,更容易实现,在某些情况下产生更令人满意的结果。
2.2. 用人工智能技术进行路径规划
有许多人工智能技术用于解决路径规划问题。 其中,模糊逻辑是最早被使用的(Reignier, 1994; Saffiotti, 1997; Yen, 1995)。模糊逻辑对静态工作空间来说是很好的,但在动态环境中产生的结果很弱。此外,模糊计算的轨迹也不是最优的。遗传算法(GAs)不久就出现了 (Sugihara amp; Smith, 1997)。由于其特殊性,GAs在寻找全局最优轨迹方面非常出色。然而,它们在高度复杂的环境下不能很好地伸缩,并且为运动规划问题找到一个好的适应度函数是相当困难的。混合方法出现了,它使用经典算法,如势场,并结合人工智能技术(如GAs),以改进解决方案(Vadakkepat, 2000)。然而,由于本研究中所使用的势场模型的限制,路径规划的性能仍然较弱。粒子群算法也开始用于实现无碰撞机器人导航(Kennedy, 2010; Nasrollahy, 2009)。然而,计算结果很慢,并且高度依赖于障碍物的形状。
图1所示.移动机器人强化学习的范例
人工神经网络已被用于解决移动机器人的路径规划问题。在过去的20年里,人们提出了几种类型的神经网络规划方法(Pomerleau, 2012)。最新的研究调查了使用神经网络和其他技术,如模糊逻辑或遗传算法,以提高可靠性,训练时间和所提出的路径规划者的收敛速度。
神经模糊控制器也被用来实现无碰撞导航(Rusu, Petriu, Whalen, Cornell, amp; Spoelder, 2003)。在本研究中,模糊逻辑模块是基于一组原语的。如果一个转弯原语(“Go-Tangent”)被激活,则使用神经网络,并计算转弯角度。然而,本研究中的障碍物
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[590279],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
