学习机器人把握深度学习手眼协调能力和大规模数据收集外文翻译资料

 2022-11-05 14:50:44

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


学习机器人把握深度学习手眼协调能力和大规模数据收集

摘要

我们描述了一种基于学习的手眼协调机器人抓取单目图像的方法。为了学习手眼协调的抓握,我们训练了一个大的卷积神经网络,以预测抓手的任务空间运动将导致成功抓握的概率,仅使用单眼摄像机图像并且独立于相机校准或当前机器人姿势。这需要网络来观察抓手和场景中的对象之间的空间关系,以此学习手眼协调。然后我们使用这个网络实时伺服抓手,以实现成功的抓握。为了训练我们的网络,在任何给定时间使用6到14个机器人操纵器,在摄像机放置和硬件方面的差异,我们在两个月的时间里收集了超过80万个抓握尝试。我们的实验评估表明,我们的方法实现有效的实时控制,可以成功地抓住新的对象,并通过连续伺服纠正错误。

图1 我们的大规模数据收集设置,包括14个机器人操纵器。我们收集了超过80万个抓握尝试来训练CNN掌握预测模型

1 介绍

当人类和动物参与对象操纵行为时,交互本质上涉及感知和动作之间的快速反馈循环。甚至复杂的操作任务,例如从杂乱的箱中提取单个对象,可以几乎没有任何预先计划,而是依赖于来自触摸和视觉的反馈。相比之下,机器人操纵经常(尽管不总是)更多地依赖于提前规划和分析,具有相对简单的反馈,例如轨迹跟随,以确保执行期间的稳定性(Srinivasa等人,2012)。部分原因是将诸如视觉的复杂感觉输入直接结合到反馈控制器中是非常具有挑战性的。诸如视觉伺服的技术(Siciliano和Khatib,2007)对视觉特征执行连续反馈,但是通常需要手动指定特征,并且开环感知和反馈(例如,经由视觉伺服)需要手动或自动校准来确定摄像机和机器人末端执行器之间的精确几何关系。

在本论文中,我们提出一种基于学习的手眼协调方法,我们演示了一个机器人抓握任务。我们的方法是数据驱动和目标:我们的方法是学习伺服机器人可能产生成功的抓握的抓手姿势,端到端训练直接从图像像素到任务空间抓手运动。通过连续重新计算最有前途的运动命令,我们的方法不断地整合来自环境的感觉线索,允许其对扰动作出反应并调整抓握以最大化成功的概率。此外,在机器人的框架中发出电机命令,其在测试时间对于模型是未知的。这意味着该模型不需要相对于端部执行器精确地校准相机,而是使用视觉提示来确定夹持器和场景中的可抓取对象之间的空间关系。

我们的方法包括两个部分:掌握成功预测器,其使用深卷积神经网络(CNN)来确定给定运动产生成功抓握的可能性;以及连续伺服机制,其使用CNN来不断地更新机器人 电机命令。通过连续选择成功掌握的最佳预测路径,伺服机构向机器人提供对扰动和物体运动的快速反馈,以及对不准确致动的坚固性。

使用超过800,000次抓取尝试的数据集训练抓握预测CNN,使用类似(但不相同)的机器人操纵器的集群,如图1所示,在几个月的过程中收集。虽然每个机器人的硬件参数最初是相同的,但每个单元在数据收集过程中经历不同的磨损,与不同的物体相互作用,并且相对于机器人基座使用略微不同的相机姿势。 这些差异提供了用于学习连续手眼协调用于抓握的多样化数据集。

这项工作的主要贡献是一种用于从单目相机学习连续视觉伺服的机器人抓取的方法,用于学习预测抓取尝试的结果的卷积神经网络架构,以及用于机器人抓取的大规模数据收集框架。我们的实验估价表明,我们的卷积神经网络抓取控制器在抓取广泛的对象,包括更大,小,硬,软,可变形和半透明的对象杂乱地抓取时获得高成功率。我们的抓取系统的补充视频显示机器人采用连续反馈不断调整其掌握,考虑对象的运动和不准确的致动命令。我们还将我们的方法与开环变体进行比较,以证明连续反馈的重要性,以及使用手动手眼校准和深度感测的手工工程学习基线。我们的方法在我们的实验中达到最高的成功率。我们的数据可以在这里找到:https://sites.google.com/site/brainrobotdata/home

2 相关工作

机器人抓握是最广泛探索的操纵区域之一。虽然一个完整的掌握调查超出了这项工作的范围,我们请读者对这个主题的标准调查更全面的治疗(Bohg等人,2014)。广泛地,掌握方法可以被分类为几何驱动和数据驱动。几何方法分析目标对象的形状,并基于诸如力闭合(Weisz&Allen,2012)或笼罩(Rodriguez等,2012)的标准来计划合适的抓握姿势。这些方法通常需要理解几何形状 场景,使用深度或立体传感器以及先前扫描的模型与观察的匹配(Goldfeder等人,2009b)。

数据驱动方法采用多种不同的形式,包括预测抓握配置的人类监督方法(Herzog等人,2014; Lenz等人,2015)和从离线计算的几何标准预测手指放置的方法(Goldfeder等人。2009a)。这两种类型的数据驱动的掌握选择最近并入深度学习(Kappler等人,2015; Lenz等人,2015; Redmon&Angelova,2015)。反馈已经被结合到抓握中,主要作为实现力关闭的期望力和其他动态抓取标准(Hudson等人,2012)以及标准伺服机构的形式的方式,包括视觉伺服(如下所述)以将抓手伺服到预先计划的抓握姿势(Kragic Christensen,2002)。在这项工作中提出的方法是完全数据驱动的,并不依赖于任何人类注释在训练或测试时间,与基于抓取点的现有方法相反。此外,我们的方法不断调整电机命令,以最大限度地抓住成功,提供连续反馈。相对较少的先前工作已经解决了用于抓握的直接视觉反馈,其中大多数需要手动设计的特征来跟踪端部执行器(Vahrenkamp等人,2008; Hebert等人,2012)。

我们的方法与Pinto&Gupta(2015)最近关于自我监督学习的工作密切相关。这个先前的工作提出了学习网络以预测给定图像补丁的最佳抓握取向,训练有使用基于对象建议的启发式抓取系统收集的自我监督数据。与此前的工作相反,我们的方法通过观察夹具并选择最佳的电机命令以将夹具移动成功地抓握,而不是进行开环预测来实现连续的手镯协调。此外,我们的方法不需要图像块的建议或作物,并且最重要的是,不需要在机器人和相机之间进行校准,因为闭环伺服机构可以通过连续调整电机命令。我们训练我们的方法使用超过80万把握在一个非常大的各种各样的对象,这比以前的方法基于直接自我监督(Pinto&Gupta,2015)大一个数量级,并且超过数据集大小的两倍基于来自3D扫描的合成抓地力的现有方法(Kappler等人,2015)。

为了收集我们的掌握数据集,我们并行地将数据收集跨越多达14个独立的机器人。 除了Pinto和Gupta(2015)的工作之外,先前的大规模掌握数据收集工作集中于收集对象扫描的数据集。例如,Dex-Net使用了10,000个3D模型的数据集,结合一个学习框架来获取力闭合掌握(Mahler等人,2016),而Oberlin&Tellex(2015)的工作提出了使用 百特机器人。 Oberlin&Tellex(2015)还提出了在多个机器人上并行化数据收集。更广泛地,机器人系统通过汇集他们的集体经验更快地学习的能力已经在许多现有技术中被提出,并且被称为集体机器人学习和云机器人的实例(Inaba等人,2000; Kuffner,2010; Kehoe等人,2013; 2015)。

我们的方法的另一个相关领域是视觉伺服,其使用视觉反馈将相机或末端效应器移动到期望的姿势(Kragic和Christensen,2002)。与我们的方法相比,视觉伺服方法通常涉及到相对于场景中的对象的姿态,并且经常(但不总是)依赖于手动设计或指定的特征用于反馈控制(Espiau等人,1992; Wilson等人,1996; Vahrenkamp等人,2008; Hebert等人,2012; Mohta等人,2014)。光度视觉伺服使用目标图像而不是特征(Caron等人,2013),并且已经提出了几种视觉伺服方法,其不直接要求在机器人和相机之间进行预先校准(Yoshimi和Allen,1994; Jagersand等人,1997; Kragic&Christensen,2002)。据我们所知,没有提出使用视觉伺服直接移动到使给定任务(例如抓握)上的成功概率最大化的姿势的先前基于学习的方法。

为了预测最佳的电机命令以最大化掌握成功,我们使用卷积神经网络(CNN)训练成功的预测成功。虽然CNNs背后的技术已经知道了几十年(LeCun&Bengio,1995),他们近年来在广泛的有挑战性的计算机视觉基准上取得了显着的成功(Krizhevsky等人,2012),成为事实上的标准计算机视觉系统。然而,与应用于被动感知任务(如对象识别)(Krizhevsky等人,2012; Wohlhart&Lepetit,2015),本地化(Girshick等人,2014),应用CNNs机器人控制问题相比,和分割(Chen等人,2014)。几个作品建议使用CNNs用于深层钢筋学习应用,包括玩视频游戏(Mnih等,2015),执行简单的任务空间运动视觉伺服(Lampe&Riedmiller,2013),控制简单的模拟机器人系统等人,2015; Lillicrap等人,2016),并执行各种机器人操作任务(Levine等人,2015)。许多这些应用程序都在简单或合成域中,并且所有这些应用程序都集中在具有小数据集的相对受限的环境中。

3 概述

我们的学习手眼协调的方法由两部分组成。第一部分是接受视觉输入It和任务空间运动命令vt的预测网络g(It; vt),并且输出执行命令vt将产生成功抓取的预测概率。第二部分是伺服函数f(It),其使用预测网络来连续地控制机器人来伺服夹持器以成功掌握。我们描述这些组件如下:第4.1节正式定义由预测网络解决的任务并描述网络架构,第4.2节描述了伺服功能如何使用预测网络来执行连续控制。

通过将手眼协调系统分解为组件,我们可以使用标准的监督学习目标来训练CNN掌握预测器,并设计伺服机制以利用该预测器来优化抓取性能。结果方法可以解释为一种强化学习,我们讨论这种解释,连同基本的假设,在4.3节。

为了训练我们的预测网络,我们使用一组类似(但不相同)的机器人操纵器收集了超过80万次抓取尝试,如图1所示。我们在第5.1节讨论我们的硬件设置的细节,并讨论数据收集过程 在第5.2节。为了确保所学习的预测网络的一般化,每个机器人的具体参数根据相机姿势相对于机器人而变化,提供对相机校准的独立性。此外,每个机器人上的不均匀磨损导致夹持器指状物的形状不同。尽管如我们的实验所证明的,在开环中精确预测最佳运动矢量是不可能的,如我们的实验所证明的,我们的连续伺服方法可以通过观察其过去的行为的结果来纠正错误,即使没有知识 精确的相机校准。

4 掌握卷积网络和连续伺服

在本节中,我们讨论我们的方法的每个组成部分,包括神经网络架构和伺服机制的描述,并结束作为强化学习的一种形式的方法的解释,包括决策结构的相应假设问题。

4.1 掌握卷积神经网络的成功预测

掌握预测网络g(It; vt)被训练以基于当前相机观察It来预测给定任务空间运动vt是否将导致成功掌握。为了进行精确的预测,g(It; vt)必须能够解析当前的相机图像,定位夹具,并且确定根据vt移动夹具是否将其置于闭合手指将拾取目的。这是一个复杂的空间推理任务,不仅需要从单目图像解析场景的几何形状的能力,而且还需要解释物质属性和物体之间的空间关系的能力,这强烈影响给定的掌握的成功。在图2中示出了用于网络的一对示例输入图像,其覆盖有根据推断的抓握成功概率而着色的线。重要的是,提供给网络的运动矢量不被转换到摄像机的帧中,这意味着该方法不需要手到眼相机校准。然而,这也意味着网络必须自己通过确定机器人和夹具的方向和位置来推断任务空间电机命令的结果。

图2 提供给网络的示例输入图像对,其覆盖有线以指示采样的目标抓握位置。颜色表示它们的成功概率:绿色是1:0,红色是0:0。使用仅用于可视化的已知校准将抓握位置投影到图像上。网络不接收这些姿态在图像上的投影,而是仅仅偏离机器人的框架中的当前夹持器位置。

用于训练CNN掌握预测器的数据通过使用真实的物理机器人诱导握持来获得。每个掌握由T个时间步长组成。在每个时间步长,机器人记录当前图像Iit和当前姿势pit,然后选择移动夹具的方向。在最后时间步骤T,机器人关闭夹具并评估抓握的成功(如附录B中所述),产生标签Li。每次抓握尝试产生由(Iit; piT - pit,Li)给出的T个训练样本。也就是说,每个样本包括在该时间步骤观察到的图像,从当前姿态到最终到达的姿态的矢量,以及整个掌握的成功。该过程在图3中示出。该过程训练网络以预测是否沿着给定矢量移动夹具,然后抓握将产生成功的抓握。注意,这不同于标准强化学习设置,其中预测基于当前状态和电动机命令,在这种情况下由pt 1-pt给出。我们在4.3节讨论在强化学习的上下文中这种方法的解释。

图3 握紧样品设置图。每个掌握i由T个时间步长组成,每个时间步长对应于图像Ii和姿势pi。最终数据集包含由图像,从当前姿势到最终姿势的向量以及抓握成功标签组成的样本(Iit; piT

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139856],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版