基于机器学习的图像识别技术研究文献综述

 2023-08-07 15:52:57

文献综述(或调研报告):

[1]表明图像质量评价方法主要包括两种,第一种为主观质量评价,第二种为客观质量评价。而机器只能采用客观的质量评价方法,其中的,无参考质量评价算法在计算失真图像的视觉质量时不需要任何参考图像的信息,在实际应用系统中具有更广泛的应用前景。而我们的识别就要应用到其中的质量评价方法。

随着各种信息技术和计算机技术的蓬勃发展,社会各界对图像识别的要求也水涨船高。一大批需要图像识别技术的应用,如移动支付、海洋勘探、天气预报、雷达声呐等,也让公众对这个领域越发了解、渴望。几十年来,研究、发表的机器学习的方法种类如雨后春笋不断涌现,如倾向于用计算机模拟人脑得到神经网络学习,采用最直观的数学方法的统计机器学习、归纳学习、演绎学习、类比学习、分析学习等等等等。[2]中介绍了机器学习的图像识别的本质:挖掘图像分类层中的特征,用不同的特征值界定不同的物体。而常用的算法更是琳琅满目:监督机器学习[3](算法从标记数据中学习。在理解数据之后,算法基于模式确定应该将哪个标签赋予新数据并将模式与未标记的新数据相关联)、决策树[4][5](一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树)、贝叶斯[6](对于给出的待分类样本特征x,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别)、支持向量机[7](在高维或无限维空间中构造超平面或超平面集合,将原有限维空间映射到维数高得多的空间中,在该空间中进行分离会更容易)、随机森林[8](利用多棵决策树对样本进行训练并预测)、人工神经网络和人工智能连接起来的深度学习[9][10](人工神经网络ANN从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络)

在过去的数十年里,无数这个行业的先辈为此奉献自己的智慧。1950年,对文字的识别起步,这时只是简单地识别数字、字母,主要应用于对应损伤模糊的符号识别,同时也为之后的图像识别的发展准备了基础。图像识别技术从1965年开始就进入设想,但直到21世纪后计算机的计算量开始巨幅提升,图像识别的研究与应用才真正进入腾飞。2009年,ImageNet的发布,为图像识别技术提供了无比巨大的助力。自2010年起,每年度的ImagNet大规模视觉识别挑战赛,风湿这个领域的最大盛会,所有顶级的学者,前沿的技术,都在这里展现,专业的研究团队给予技术评估,不同的识别任务角逐出不同的冠军。[11]中表明2012年起,AlexNet、RCNN、ZFNet、VGG、ResNet等各领风骚,这些网络将在后面一一介绍,卷积神经网络的发展伴随着在层数不断加深,也促进这个行业整个不断蓬勃发展。

1998年,LeNet[12]提出,这是一种针对手写体字符识别的神经网络,它虽然只有小小五层,但包含了深度学习所有基本模块:卷积、池化、全链接。可以说之后所有的用于识别的卷积神经网络都受了他的影响。2012年,AlexNet[13]横空出世,它首次在CNN中应用了ReLU整流,Dropout等之后一直使用的小技巧,并开创性地使用GPU对运算进行加速。将ReLU作为卷积神经网络的激活函数解决了梯度弥散问题,Dropout技术随机忽略神经元避免了过拟合,首次使用叠池的最大池化,避免过去存在的池化模糊效果等。这些技术虽然不都是在此独创,却将它们整合发扬,将图像识别带入新纪元。之后的ZFNet[14]的网络结构与AlexNet相似,利用一块GPU的稠密连接结构代替AlexNet的两个,缩小了卷积核的大小,卷积中的步长。最主要的区别,就是引进了可视化。随后一年的VGG[15]独领风骚,VGG最主要的贡献就是,用更小的3times;3,1times;1的卷积核代替之前的大卷积核,参数大幅减少的情况下增加了非线性表达能力,同时开启了神经网络深度的不断加深的时代。此外,VGG不仅针对的大规模的图片数据集,在其它数据集上的推广也很好。在之后的ResNet[16],颠覆了之前的模型设计。VGG只有19层,GoogleNet[17]22层,而ResNet通过解决了之前困扰全世界的梯度爆炸/消失和退化问题将这个数字提升到了四位数,将错误率从VGG的7.3直接降低到3.57。虽然层数、准确度都大幅提升但参数和计算复杂度却并无大的区别。这样高性价比由高性能的模型,为未来的所以识别模型提供了方向。2017年的DenseNet[18]又一次改变了卷积神经的发展方向,本来的神经网络向着ResNet这样的更深的网络或者Inception这样更宽的网络发展,而DenseNet却从特征入手,通过都利用feature达到更好的效果和更小的参数。减轻了梯度消失的问题。如果说ResNet的创新点在于使用捷径连接前后层,DenseNet更进一步,将所有层连接了起来,所有层都一一连接,相当于每一层连接了输入和输出,减轻了梯度消失,更深的网络不再是问题。而因为每个卷积层的特征图足够小,参数的减小由起到了正则化的效果,很好地抑制了过拟合的问题。此外,2017还有另一大种算法DPN[19]的提出。DPN是ResNet和DenseNet思想的结合,且模型复杂度和计算复杂度远低于ResNet的升级版ResNeXt[20]。ResNeXt同时采用 VGG 堆叠的思想和 Inception 的 split-transform-merge 思想,在不增加参数复杂度的前提下提高准确率,同时还减少了超参数的数量。DPN每一层的输出走两条线,一条线是如捷径连接般保持自身,另一条线经过数层卷积与第一条线相加,然后将这两个线中的各自数据通道合并,像DenseNet那样与每一层连接。当然,这些现在都是网络世界上最知名,最广泛使用的模型架构,每年你ImageNet上,日常的工程中还有许多不同的算法模型,有机会还要继续学习思考这些算法。例如2019年夺魁,参数量却只有原来1/8的EfficientNet[21]。2019年的ImageNet,来自全球的14104位作者共提供了5160篇论文,虽然最终承认的只有1294篇,但这个增幅也足够说明这个研究的方向广阔前景。2019年的优秀成果也不再局限于图像识别,对镜子反射等非视距因素也进行了考量。相信未来也一定会有这样的新算法出现,一次次创造图像识别、甚至场景识别上的新高。而目前的对抗样本[22][23]以及针对对抗样本的训练[24]等问题也是摆在图像识别前的一座大山。对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出,这样在人眼识别不到的情况下利用模型得到的特征值欺骗了模型,与之对应的就是针对他的训练对抗训练,就是通过在对抗样本上训练模型。既然深度学习的对抗样本是由于模型的线性特征所导致,那就可以设计一种快速的方法来产生对抗样本进行对抗训练。论文还发现,对于误分的对抗样本,对抗训练得到的模型的置信度依然很高。所以通过对抗训练能够提高深度学习的对于对抗样本的抗干扰能力。

[25]表明,目前的图像识别技术是作为一个工具来帮助我们与外部世界进行交互,为我们人类自身的视觉提供一个辅助手段。而未来,图像识别的未来将是制造出拥有视觉的人工智能,完全可以不局限作为人类的辅助,而是一个有独立决策和行为能力的主体。在很多场景中,机器视觉也许比人类的视觉更具优势,更加准确、客观、稳定,人类的视觉受情感、经验等条件的制约,而理论上足够强大的网路和数据库支持机器识别出任何物品。然而,明显现在的图像识别的建模算法还远远达不到支持这样的设想的水平。ImageNet这一最受欢迎的图片集,包含不过是1000种类别。对于最初的设想,这还是远远不够的。

本次毕业设计中,要综合应用大学四年以来学得的数学知识,编程知识,信号处理知识等进行程序设计编写。还要结合十年来一届届ImageNet上启发世界的算法,保证结果的真实性、有效性、发展性。

参考文献:

  1. Weilong Hou, Xinbo Gao, Dacheng Tao and Xuelong Li, Blind Image Quality Assessment via Deep Learning[J], IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2015, 26(6): 1275-1286
  2. Fernando B, Fromont E, Tuytelaars T, Mining Mid-level Features for Image Classification[J], International Journal of Computer Vision, 2014, 108(3): 186-203
  3. Kotsiantis S B, Supervised machine learning: a review of classification techniques[J], Informatica, 2007, 31(3): 249-268
  4. 潘燕,基于改进型决策树SVM的图像识别方法[J],新乡学院学报,2018,35(12): 22-25
  5. 黎旭荣,Forestnet:一种结合深度学习和决策树集成的方法[D],中山大学,2015
  6. Hao Wang, Dit-YamYeung, Towards Bayesian Deep Learning: A Survey[EB/OL], https://arxiv.org/abs/1604.01662, 2016-4-7
  7. Joachims T, Making large-scale support vector machine learning practical[C], Advances in kernel methods, MIT Press, 1999: 169-184
  8. H. Rahmani, A. Mahmood, D. Q. Huynh and A. Mian, Real time action recognition using histograms of depth gradients and random decision forests[J], IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, 2014: 626-633.
  9. Stone P, Veloso M, Multiagent Systems: A Survey from a Machine Learning Perspective[J], Autonomous Robots, 2000, 8(3): 345-383
  10. Rosten E, Drummond T, Machine learning for high-speed corner detection[J], European Conference on Computer Vision, Springer-Verlag, 2006: 430-443
  11. 郑远攀,李广阳,李晔,深度学习在图像识别中的应用研究综述[J],计算机工程与应用,2019(12): 20-36
  12. Lecun Y, Bottou L, Bengio Y, et al, Gradient-based learning applied to document recognition[J], Proceedings of the IEEE, 1998, 86(11): 2278-2324
  13. Krizhevsky A , Sutskever I , Hinton G, ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2):15-32
  14. Zeiler M D, Fergus R, Visualizing and Understanding Convolutional Networks[J], Computer Vision – ECCV, 2014: 818-833
  15. Simonyan K, Zisserman A, Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL], https://arxiv.org/abs/1409.1556, 2015-4-10
  16. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition[J], 2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778
  17. Szegedy C , Liu W , Jia Y , et al, Going Deeper with Convolutions[J],The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1-9
  18. Huang G, Liu Z, Maaten L, et al, Densely Connected Convolutional Networks[J], The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 4700-4708
  19. Yunpeng Chen, Jianan Li, Huaxin Xiao, Dual Path Networks[EB/OL], https://arxiv.org/abs/1707.01629, 2017-8-1
  20. S. Xie, R. Girshick, P. Dollaacute;r, Z. Tu and K. He, Aggregated Residual Transformations for Deep Neural Networks[J], 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017: 5987-5995
  21. Tan M, Le Q V, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[EB/OL], https://arxiv.org/abs/1905.11946, 2019-11-23
  22. Anh Nguyen, Jason Yosinski, Jeff Clune, Deep Neural Networks are Easily Fooled: High Confifidence Predictions for Unrecognizable Images[J], The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 427-436
  23. Anish Athalye, Logan Engstrom, Synthesizing Robust Adversarial Examples[EB/OL], https://arxiv.org/abs/1707.07397, 2018-6-7
  24. Alexey Kurakin, Ian J, Goodfellow, Samy Bengio, Adversarial Examples In The Physical World[EB/OL], https://arxiv.org/abs/1607.02533, 2017-1-11
  25. 李义,基于相关学习神经网络的图像识别方法研究[D],哈尔滨工业大学,2015

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。