- 选题背景和意义
现在的计算机视觉技术很多都是在二维平面上提出的,但是在实际情况中二维图像相对于三维场景来说失去了很多重要的信息,会导致一定的偏差产生,其中一个重要的指标就是物体深度。因此通过二维图像来判断物体深度对于还原实际场景的物体尺寸,遮挡,物体位置具有重要作用,同时这个技术还可以广泛地引用于生活中,比如更好地了解网络和社交媒体中分布的各类图片,更好地实现智能地图等方面。
目前来说判断物体深度信息有两个方向:一个是基于硬件的基础:比如激光雷达探测和RGB-D相机,前者因为其高昂的价格导致无法普遍应用,目前只能作为测试和实验来使用。后者虽然成本较低,而且可以通过红外光来判断物体信息,但是它受到外界环境光影响较大并且探测范围较小,在室外或者大范围场景下的感知会有较大偏差,多用于小范围的室内场景的研究。
另一个方向是基于人工智能对于同一场景的单幅或者多幅图片进行深度学习探测,其中根据同一场景的视点图像数量分为三种:基于多视图的深度估计和基于双目摄像的深度估计和基于单目的深度估计。其中基于多视图主要是建立一个摄像机阵列来对同一场景进行采集,通过对比不同图像的冗余信息判断物体深度。这种方法需要多台摄像机进行配合,配置繁琐,应用情况较少。基于双目摄像是模仿人眼判断图像特征的方法来找到图像的特征点,进而还原当时摄像机的参数和场景位置信息,需要利用立体匹配算法,计算量大。单目摄像是用一个视觉图像进行深度估计,对于前两种方法来说,单目在实际应用中较为普遍,由于单目图像所具有的信息较少,需要其它信息作为参考。
相对于以上情况来说,单目摄像头的成本较低并且在现实生活中比较普遍。对于单目SLAM来说,从单张图(或者是静止的图序列)是无法在几何上得到深度的。如果能通过算法给出一个粗略的深度估计(相当于从数据集中获得图像的深度),对于算法的收敛性和鲁棒性也是一个很大的提升。
- 课题关键问题及难点:
- 关键问题:
- 不同比例网络的构建,得到一个比例固定的输出
- 训练集的图片是否具有深度值来进行有监督方式训练还是无监督方式训练。
- 无监督方式需要其他额外信息来判断损失(语义信息相似,三维几何约束等)
- 难点:
- 对于数据集的数据进行预处理
- 对于损失函数的计算
- 文献综述(或调研报告):
早在10多年前,深度学习还不流行,人们就开始使用机器学习的方法来从单张图片中估计深度了。
有监督方式训练神经网络:
在这之后David Eigen提出利用CNN-based来做单目深度估计,文章[1]中主要是利用了两个比例的网络来进行深度地图的估计,它们是神经网络的两个分量:一个首先估计场景的全局结构,然后另一个使用局部信息对其进行优化。前者其实就是AlexNet,来得到一个低分辨率的粗略的深度地图,再用后者去叠加前者的输出得到最后的精确的深度地图。这两个网络的输入都是原图,第二个网络不改变特征图的尺寸,其中先训练粗略网络,在粗略网络计算固定之后再计算精细网络,这就说明训练精细网络的时候不可以向反向传播。
在该文中使用的数据是有深度值的图像,但是实际情况中这样的图像数据是比较少的,且较难制作,所以这个方法的实用性会受到数据的限制。
在文章[2]中对于文章[1]做了一定的改进,其中增加了第三层网络,使得分辨率提高,从[1]中的55times;77变为[2]中的109times;147,并且对于输出预测来说,不是将网络1的输出传递到网络2[1],而是通过多通道要素映射[2];在此过程中,还可以从一开始就联合训练网络的前两个尺度,从而简化培训程序并取得绩效。
无监督方式训练神经网络:
