基于卷积神经网络的3D人体姿态识别文献综述

 2022-10-26 04:10

文献综述(或调研报告):

此处容分为“姿态识别发展调查”与“深度学习框架比较”两部分。

  1. 姿态识别(Pose Estimation)发展调查

随着深度学习以及神经网络的发展,面部检测与手势检测技术逐渐发展成熟起来并开始进入到实际的应用中去,姿态估计也在蓬勃的发展。目前主流的研究方向分为2D和3D,规模有多人和单人的区别,方法上有自底向上以及自顶向下的区别。Bottom-Up,先检测人体的关节和肢干,进而组合还原成一个人体,这种方法的优点是只需要处理一次图像,检测速度不随着人数增加而变化。Top-Down方法,就是先检测目标人体,再针对单人进行姿态估计,思路直观,目前单人的方法大都都是采用自顶向下的方法,识别效率较高。

对于2D的姿态识别,我们既可以将其看作回归问题,也可以将其看作检测问题。当作回归问题处理,我们希望直接回归得到具体的xy坐标。如果当作检测问题,我们逐一检测关节,并且得到相应的热区图谱,利用热区图谱来反映人体的不同位置【5】。早期的姿态识别方法采用回归方法,但是其结果不尽人意,因为人体的运动较为灵活,难以直接回归。因此从Tompson的论文【5】发表以后大多的姿态识别都基于热区图来进行,通过深度卷积网络进行检测,并且进一步对关节从属级联关系进行分析【8】。美国的卡耐基梅隆大学CMU,在2D姿态识别方向目前是有着最强劲的实力。发表了多篇具有分量的论文,2017年的实时多人2D姿态检测效果出众【7】,目前2D姿态识别的state of the art是CMU的开源项目Open Pose,依托于CMU实验室有着500多个摄像头的人体姿态采集球,open pose能够识别2D的人体的面部,手部以及关节检测。

Figure 1 CMU的人体姿态采集球

对于3D的姿态识别,主要分为基于RGB-D深度摄像头和RGB普通摄像头两种,微软的Kinect能够获得宝贵的深度数据,通过点云数据进行姿态估计,这是最为直接的方法,但是Kinect设备较为昂贵,难以广泛应用。对于目前网络社区中大量的普通摄像头录制的视频,Kinect方法也不适用,这就浪费了大量的数据,重新用RGB-D摄像头进行录制显然是不切实际的。因此基于RGB摄像头的3D姿态检测很有必要。3D姿态识别当前领域,来自马克思-普朗克研究所的Dushyant Mehta教授近期做出了很多成果,在2017年,其先后发布了单目的3D人体姿态识别(图片)【1】,单目3D实时姿态识别【2】,以及最新的单目的多人3D姿态估计【6】。本实验所主要依据的理论基础就来自Dushyant Mehta教授的论文VNect【1】,VNect利用Titanx显卡,通过训练基于ResNet【9】以及解卷积神经网络【11】结构进行改进的深度卷积神经网络,利用后期的适用于姿态识别的过滤方法【10】,完成了实时的单人姿态检测,能达到30fps的速率,虽然其设备较为昂贵,但仍然是3D姿态识别方向的一个跃进。这也归功于近年来卷积神经网络的发展,残差卷积神经网络【9】的出现,使得训练更深更复杂的网络成为可能。

2.深度学习框架的选取

目前主流的深度学习框架包括Caffe、TensorFlow、MXnet等,我们通过各个方面的比较来确定我们所需要选择的开发框架。我们所要考虑的问题不光包括库的接口支持,文档的全面程度,还需要考虑在有限的时间(一个月)内能让我们迅速上手,并将主要工作重点投入至网络搭建而非编程语言语法的深入探究,以高效与高质量为目标进行考量。

1.1概况比较

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。