1.计算机视觉概述
计算机视觉是一门研究如何使机器“看”的科学,通过研究相关理论和技术,试图建立能从图西乡或者多维数据中获取信息的人工智能系统。计算机是觉得最终研究目标就是使计算机能够像人那样通过观察世界和理解世界,具有自主适应环境的能力,而现在,人们努力的中期目标是建立一种视觉系统,这个系统依据视觉敏感和反馈的某种程度的智能完成一定的任务。计算机视觉又包含了诸多不同的研究方向,如物体识别和检测,语义分割,运动与跟踪,三维重建,动作识别,视觉问答等。本毕业设计则主要是研究视频场景的理解与分析。
2.视频语义分割概述
目前基于图像的语义分割已经可以做到非常好,但是面对单帧观测不好,遮挡,运动模糊,光照不好等情况效果不好,而实际机器在环境中是可以对环境进行连续长时间的观测,在时间上有很多的信息冗余,从数据融合的角度考虑,大量的数据冗余可以抵消观测中的噪声,所以理论上用视频做图像或者视觉任务应该比单帧能达到更好的效果,目前这个研究方向逐渐向机器学习,深度学习方向靠拢,近两年也有些效果不错的工作。主要可应用于机器人,无人机,无人驾驶,智能拍照等。
近几年随着卷积神经网络的不断发展,图像分割技术取得了巨大的进步,自然而然的,下一个挑战是发展快速准确的视频语义分割技术。语义分割任务要求给图像的每一个像素赋予一个带有语义的标签,而视频语义分割任务要求给视频的每一帧图像的每一个像素赋予一个标签。近年来,图像语义分割已经有了十分重大的突破,但仅仅通过将视频的每一帧送入图像语义分割模型中,必然会存在巨大的计算量,不能满足实时的视频语义分割。视频具有一个重要的特点就是帧与帧之间存在冗余,因此利用帧之间的相似性来减少模型的计算量,提高模型的运行速度和吞吐量是一个很重要的内容。另外视频具有时序信息,利用视频帧之间的时序信息也能提高视频语义分割的精度。
基于视频任务的特性,我们可以将问题分成两个子类,无监督的和半监督的,无监督模型亦称为视频显著性检测,寻找视频中的主要目标,主要问题在于算法如何自主找到哪个物体才是主要的;而半监督的方法只在视频的第一帧给出正确的分割掩膜,让算法在之后的每一连续帧中分割标注的目标。在OSVOS中通过将图像识别任务的预训练CNN模型迁移到one-shot的视频分割任务中,利用像素级sigmoid平衡交叉熵将结果映射为前景和背景,对每一个像素都进行这样的分类,同时也取得了不错的时间连续性,在目标有遮挡时也可以分割,不局限于某些运动,并且不需要处理时序信息也就没有时序错误积累。
在视频语义分割问题当中,有一个无法避免的问题就是缺少高质量的数据标注,因为视频的数据量巨大,若对每一帧的每一张图片都进行标注,这项任务将会十分繁杂,因此,针对少量高质量标注的数据,如何达到较好的分割效果是一个很重要的研究方向。针对少量标注问题,主要解决方案就是进行弱监督或半监督学习,如对关键帧提取,以泛化整个视频流,或利用视频信息的冗余性融合各帧信息,结合多帧未标注的信息来提高分割性能,如[7]中提出的Spatio-Temporal Transformer GRU 的模块利用卷积学习临近帧的局部信息。[11]中提出的获取关键帧,让当前帧通过整个网络获取深度特征,对于不是关键帧的帧,会计算它与关键帧之间的光流,用光流把关键帧的深度特征wrap到当前帧,得到当前帧的分割结果。并且在此基础上,[9]提出了自适应获得关键帧的方法,通过计算low level feature,因为low level feature的变化一定程度上代表了这一阵是否要成为关键帧,帧的内容发生巨大变化后,底层特征的差异性一定很大,这样就自适应的提取到了关键帧。另外,对于视频数据的语义分割,如果直接进行单帧的分割,会存在严重的抖动,尤其是物体的边界位置,因此NVIDIA与一些研究所研究并提出了一种wrap的方法[5],借助光流信息的计算与整合,将前一帧的特征利用到当前帧,达到特征增强的效果,最终得到前一帧与当前帧的结合的信息,并以PSPnet为基础,结合该技术为模型后提高了一定的性能。这种将经典方法与深度学习结合是一个很好地方向。
在著名的DAVIS(Densely Annotated VIdeo Segmentation)视频对象分割挑战赛中,2016年主要出现的有两种方法,分别是Mask Track 和OSVOS,就是上文中提到的,只不过OSVOS只是对视频每一帧独立计算,而Mask Track也考虑了时序信息。到了2017年,香港中文大学、哈尔滨工业大学和商汤科技公司的研究团队提出了一种通过自适应的目标重识别应对目标丢失问题,基于此的目标重识别视频分割(VS-RelD)模型包括mask模块和RelD模块,mask生成模块通过光流卷曲(flow warping)生成初始的(目标-背景)引导概率图,ReID模块则在视频序列中通过自适应匹配检索丢失的目标实例。这两个模块迭代应用,有效解决了视频分割中突然的目标位移过大带来的丢失,VS-ReID模型在2017 DAVIS视频分割比赛中获得了冠军。这些算法为以后的视频语义分割开辟了道路。
[1] Benchmark Dataset and Evaluation Methodology for Video Object Segmentation F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung, Computer Vision and Pattern Recognition (CVPR) 2016.
[2] The 2017 DAVIS Challenge on Video Object SegmentationJ. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbelaacute;ez, A. Sorkine-Hornung, and L. Van Gool, arXiv:1704.00675, 2017.
