全文总字数:10605字
1. 研究目的与意义、国内外研究现状(文献综述)
| 1.本课题的意义、国内外研究概况、应用前景等(列出主要参考文献) 1.1 研究意义 图像分类是计算机视觉领域的一个经典研究课题。传统的图像分类主要处理语义级图像和实例级图像两大类:前者包括诸如场景识别、对象识别等语义级图像分类任务,其目标是识别不同类别的对象,如猫和狗等;后者则是对不同的个体进行分类,如人脸识别。在上述场景下,不同类别图像间差异较大。 细粒度图像分类则位于这两者之间。不同于对象识别等粗粒度的图像分类任务, 细粒度图像的类别精度更加细致,不同的类之间差异更加细微,往往只能借助于微小的局部差异才能区分出不同的类别。由于其分类边界位于同一类别的不同子类之上,如不同种类的鸟等,故而又被称作子类别分类。而与人脸识别等对象级分类任务相比,细粒度图像的类内差异更加巨大,存在着姿态、光照、遮挡、背景干扰等诸多不确定因素。因此,细粒度图像分类是一项极具挑战的研究任务,其目标是对细粒度级别图像中的物体子类进行定位、识别及检索等视觉分析人物的研究,具有真实场景下的广泛的应用价值。 在日常生活中,细粒度识别有着重要意义。例如在果蔬市场上和家庭烹饪时,不同品种的果蔬长相相似,容易混淆。例如,葱和韭菜。然而,其口感、营养价值和商业价格却相差巨大。而我们面向不认识的果蔬时,我们只能通过经验肉眼识别,但若缺失这方面的经验,非常容易认错,或者通过网上搜索资料或者询问有经验的人来进行判别,不方便且费时费力。因此,设计开发一个移动端的果蔬细粒度识别系统会给人们的日常生活带来极大的便利,既能分辨出果蔬种类,根据不同的营养价值来选买心仪的果蔬,或是在烹饪这些果蔬的同时,也能科普果蔬常识,根据口味和营养价值来食用。 1.2 细粒度图像分类现状 针对细粒度图像的识别与分类这一研究问题,很多专家学者进行了广泛的研究,主要可以分为基于人工特征的早期细粒度分类算法和基于深度卷积神经网络的细粒度分类算法两大类,其中,基于深度卷积神经网络的细粒度分类算法又可以分为基于深度卷积神经网络的强监督细粒度图像分类和基于深度卷积神经网络的弱监督细粒度图像分类两大类。 基于人工特征的早期细粒度分类算法使用简单的特征提取和编码方式生成特征表示,这些表示方法相当粗糙,采集到的有效信息十分有限。比如 Wah等[1]在细粒度数据集CUB-200-2011上作基准测试时,通过对图像提取 RGB 颜色直方图特征和尺度不变特征转换(Scale Invariant Feature Transform,SIFT)[2]特征,经过词包(Bag of Words,BoW)模型生成特征编码,最终分类精度最高仅为 17.3%。Berg等[3]提出了一种基于局部区域的特征编码方式POOF,能够自动发现最具区分度的信息,取得了不错的分类效果。但该算法对关键点的定位精度要求比较高,如果用精确的标注信息实现定位的话,能够达到 73.3%的准确率,但如果利用定位算法去确定关键点的话,则只有56.8% 的准确度。除了特征之外,也有针对局部区域的算法研究,如 Yao等[4],Yang等[5]均尝试使用模板匹配的方法来减少滑动窗口的计算代价。此外,也有研究工作[6-7]尝试将人加入到分类任务中来,通过交互式的询问对答,完成指定的操作,如给出关键点,回答一些简单问题等。这类算法在小样本规模问题上不失为一种折中方案对于精度要求比较高的任务而言可作为一种补充。 |
| 此阶段的研究表明,更强大的特征描述和特征编码方式对分类准确度有着显著的影响,随着更为强大的编码方式的出现,如 Fisher Vector编码[8]、局部特征聚合描述符(Vector of Locally Aggregated Descriptors,VLAD)等[9],与之结合的 SIFT 特征的分类准确度也有所提高。 近年来卷积神经网络( Convolutional Neural Network,CNN) [10-13]在一般的图像分类任务中取得了令人瞩目的成绩,证明了卷积特征对于图像有强大的描述能力,这为细粒度图像分类带来了新的发展方向,研究人员开始选择 CNN 特征作为图像表示用于细粒度图像分类[14],又可以分为基于深度卷积神经网络的强监督细粒度图像分类和基于深度卷积神经网络的弱监督细粒度图像分类两大类。所谓强监督的细粒度图像分类算法,是指在模型训练的时候,除了图像的类别标签外,还使用了标注框、局部区域位置等额外的人工标注信息。许多专家学者就该问题展开了广泛的研究。Donahue 等 [15]发现从卷积网络中提取的特征具有更强的语义特性,比人工特征具有更好的区分度。他们将卷积特征迁移到场景识别、细粒度分类等具体领域的任务中,均获得了更好的分类性能,从实验上证明了卷积特征强大的泛化性,最终提出了DeCAF特征(Deepconvolutionalactivation feature)。Zhang等提出了 PartR-CNN [16] 算法,主要思路是利用R-CNN [17] 算法进行对象 (鸟)与局部区域(头、身体等)的检测。此外,Branson 等[18]提出了姿态归一化 CNN (Pose normalized CNN)算法。对于每一张输入图像利用算法完成对局部区域的定位检测,根据检测的标注框对图像进行裁剪,提取出不同层次的局部信息(鸟、头部)并进行姿态对齐操作。之后,针对不同部位的局部信息,提取出不同层的卷积特征并将这些卷积特征连接成一个特征向量进行 SVM 的模型训练,达到了75.7%的分类精度。此类方法存在的主要问题是标注信息的获取代价十分昂贵,在很大程度上限制了这类算法的实用性。因此,也有些算法考虑仅在模型训练的时候使用标注信息,而在进行图像分类时不使用这些信息。这在一定程度上提高了算法的实用性,但与只依赖类别标签的弱监督分类算法相比仍有一定的差距。 基于深度卷积神经网络的弱监督细粒度图像分类只依赖于类别标签完成分类,是近年来细粒度图像研究的趋势,如Jaderberg等[19]和 Lin等[20]均实现了84.1% 的分类精度,超过了绝大多数依赖于人工标注的分类算法。对于细粒度图像分类算法而言,局部区域信息是至关重要的,这也正是大多数算法依赖于标注信息的一大原因,基于深度卷积神经网络的弱监督细粒度图像分类首先要解决的就是如何检测并定位这些局部区域。两级注意力(Two level attention)算法[21]是第一个尝试不依赖额外的标注信息,而仅仅使用类别标签来完成细粒度图像分类的工作,即着重关注以往强监督工作中所使用的标注框和局部区域位置这两层信息,取得了不错的分类效果。Zhang 等[22]提出了一种能够从卷积特征中挑选出具有分辨力的局部区域特征的算法,与传统算法相比,减少了产生局部区域所需的计算量。Simon 等[23]设计了一种新颖的局部区域检测与提取的方案,利用卷积网络特征产生一些关键点并基于这些关键点来提取局部区域信息。在 CUB200-2011 数据集上达到81.01% 的分类精度。Lin等设计了一种新颖的网络模型双线性 CNN (Bilinear CNN),在 CUB200-2011 数据集上实现了84.1% 的分类精度。 |
| 1.1 应用前景 细粒度级别图像分析时图像分析领域中一项新兴的重要研究课题。细粒度图像分类在工业界和学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。以鸟类数据库为例, 单就燕鸥而言, 就存在着北极燕鸥、里海燕鸥等数种不同类别之分。而这些不同种类的燕鸥之间的差异十分细微, 挖掘出有用信息也更加困难。两种燕鸥的差别仅仅只存在于一些局部区域中,如翅膀和脚的颜色等。即便是对于鸟类专家而言, 想要完全识别出这些不同种类的鸟也不是一件容易的事情。但在实际生活中, 识别不同的子类别又存在着巨大的应用需求,例如,在生态保护中,有效识别不同种类的生物, 是进行生态研究的重要前提。 对于采购蔬果的人群或烹饪的主妇,经常遇到不认识的蔬果,细粒度识别在此也有着重要意义。不同品种的果蔬长相相似,容易混淆。然而,其营养价值和商业价格却相差巨大。例如韭菜和葱相差很小,块茎类的蔬菜都长得相似。而人们分辨不同品种的果蔬都是通过经验肉眼识别,或者通过售卖者和专家来进行判别,不方便且代价高,甚至在一过程中受骗。这一工作给人们的日常生活带来极大的便利,既能分辨出果蔬种类,少花冤枉钱,也能在烹饪的同时,科普果蔬常识,根据不同的营养价值来选择烹饪的方式。 国内已有这样对于果蔬、花卉品种识别的app,例如“形色”、“微软识花”可以识别出不同种类的花卉和果蔬。但对果蔬一类粒度不够细致,只对其进行初步分类,而对于蔬菜水果中可食用的部分,它的分类精度明显降低。 如果这一工作只能依赖领域经验和专家知识, 造成了研究成本的大幅增加。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别, 那么无论对于学术界, 还是工业界而言,都有着非常重要的意义。
|
| 参考文献 [1] WAH C,BRANSON S,WELINDER P,et al.The Caltech-UCSDBirds-200-2011 dataset, CNS-TR-2011-001[R].Pasadena,CA: California Institute ofTechnology, 2011. [2] WAH C, BRANSON S, WELINDER P, et al. The Caltech-UCSD,Birds-200-2011 dataset, CNS-TR-2011-001 [R]. Pasadena, CA: California Institute of Technology, 2011. [3] Perronnin F, S′ anchez J, Mensink T. Improving the fisher kernelfor large-scale image classification. In: Proceedings of the 11th EuropeanConference on Computer Vision. Berlin Heidelberg, Germany: Springer, 2010.143-156. [4] Yao B P, Bradski G, Li F F. A codebook-free and annotation-freeapproach for fine-grained image categoriza-tion. In: Proceedings of the 2012IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR).Providence,USA: IEEE, 2012. 3466?3473 [5] Yang S L, Bo L F, Wang J, Shapiro L. Unsupervised tem-platelearning for fine-grained object recognition. In: Pro-ceedings of the 25thInternational Conference on Neural Information Processing Systems. LakeTahoe, USA: MIT Press, 2012. 3122?3130 [6] Branson S, Wah C, Schroff F, Babenko B, Welinder P, Per-ona P,Belongie S. Visual recognition with humans in the loop. In: Proceedings ofthe 11th European Conference on Computer Vision. Berlin Heidelberg, Germany:Springer,2010. 438?451 [7] Wah C, Branson S, Perona P, Belongie S. Multiclass recog-nitionand part localization with humans in the loop. In:Proceedings of the 13thIEEE International Conference on Computer Vision (ICCV). Barcelona, Spain:IEEE, 2011.2524?2531 [8] SANCHEZ J, PERRONNIN F, MENSINK T. Image classification with the fisher vector: theory and practice [J]. International Journal of Computer Vision, 2013, 105(3) : 222 -245. [9] JEGOU H, DOUZE M, SCHMID C, et al. Aggregating local de-scriptors into a compact image representation [C]/ / CVPR 2010:Proceedings of the 2010 IEEE Conference on ComputerVision and Pattern Recognition. Washington, DC: IEEE Computer Society,2010:3304 -3311. [10] LECUN Y, BOTTOU L, BENGIO Y. Gradient-based learning ap- plied to document recognition [J]. Proceeding of the IEEE, 1998,86(11) : 2278 -2324. [11] KRIZHEVSK A, SUTSKEVER I, HINTON G E. ImageNet classifi- cation with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25: 1106 -1114. [12] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C/OL]. ICLR 2015: Proceedings of the 2015 International Conference onLearning Representations. San Diego,CA. [2017-09-12]. https: / /arxiv. org/abs/1409.1556. [13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolu-tions [C]// CVPR 2015: Proceedings of the 2015 IEEE Confer-ence on Computer Vision andPattern Recognition. Washington,DC:IEEE Computer Society, 2015: 1 -9. [14] ZHAO B, FENG J, WU X, et al. A survey on deep learning-basedfine-grained object classificationand semantic segmentation [J]。International Journal of Automation andComputing, 2017, 14(2) :119 -135.v [15] Donahue J, Jia Y Q, Vinyals O, Hoffman J, Zhang N, TzengE,Darrell T. DeCAF: a deep convolutional activation fea-ture for generic visualrecognition. In: Proceedings of the 31st International Conference on MachineLearning. Beijing,China: ACM, 2014. 647?655 [16] Zhang N, Donahue J, Girshick R, Darrell T. Part-based R-CNNs forfine-grained category detection. In: Proceedings of the 13th EuropeanConference on Computer Vision. Zurich,Switzerland: Springer, 2014. 834?849 [17] Girshick R, Donahue J, Darrell T, Malik J. Rich featurehierarchies for accurate object detection and semantic seg-mentation. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Colum-bus, USA: IEEE, 2014. 580?587 |
| [18] Branson S, Van Horn G,Belongie S, Perona P. Bird species categorization using pose normalized deepconvolutional nets [Online], available: https://arxiv.org/abs/1406.2952,June11, 2014 [19] Jaderberg M, SimonyanK, Zisserman A, Kavukcuoglu K.Spatial transformer networks. In: Proceedingsof the 29th Annual Conference on Neural Information ProcessingSys-tems. Montreal, Canada: MIT Press, 2015. 2017?2025 [20] Lin T Y, RoyChowdhuryA, Maji S. Bilinear CNN models for fine-grained visual recognition. In:Proceedings of the 15th IEEE International Conference on ComputerVision(ICCV). Santiago, Chile: IEEE, 2015. 1449?1457 [21] Xiao T J, Xu Y C, YangK Y, Zhang J X, Peng Y X, Zhang Z. The application of two-level attentionmodels in deep convolutional neural network for fine-grained imageclassi-fication. In: Proceedings of the 2015 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). Boston,USA: IEEE, 2015. 842?850 [22] Zhang Y, Wei X S, Wu JX, Cai J F, Lu J B, Nguyen V A, Do M N. Weakly supervised fine-grainedcategorization with part-based image representation. IEEE TransactionsonImage Processing, 2016, 25(4): 1713?1725 [23] Simon M, Rodner E.Neural activation constellations: unsu-pervised part model discovery withconvolutional networks.In: Proceedings of the 15th IEEE InternationalConferenceon Computer Vision (ICCV). Santiago, Chile: IEEE, 2015.1143-1151
|
2. 研究的基本内容和问题
| 2.研究的目标、内容和拟解决的关键问题 2.1 研究目标 现有的基于深度卷积神经网络的细粒度分类算法依据设计思想的不同,主要关注点集中在局部区域信息的有效利用和更强大特征表示的构造两方面,不同的算法有其适用的场景和边界。 本研究致力于比较目前主流的基于深度卷积网络的细粒度分类算法在果蔬数据集上的性能,寻找不同算法各自的边界,进一步为不同应用场景下的算法选择进行决策支撑。并根据算法优劣,开发一个移动端的果蔬细粒度识别平台。 2.2 研究内容 基于上述的研究目的,本研究比较基于深度卷积神经网络的各类代表性算法在不同标准数据集下的分类精度,致力于设计和构建一个果蔬细粒度识别平台。 2.2.1数据集预处理 本项目具有蔬果细粒度数据集。该数据集将蔬菜和水果分成了25个上层类,和292个子类。整个数据集超过160000张图片,并且每一个子集至少包含200张图片。此阶段对该数据集进行处理,对图像进行标签分类,处理成标准数据集格式。 2.2.2算法实现及比较 通过文献阅读,选择基于深度卷积神经网络的强监督细粒度分类代表性算法Part R-CNN和姿态归一化 CNN,选择基于深度卷积神经网络的弱监督细粒度分类代表性算法Two levelattention和Bilinear CNN进行比较。 2.2.3基于Android平台的果蔬细粒度识别工具开发 基于Android平台,开发一个果蔬品种细粒度识别平台,根据上面算法比较中识别精度较高的模型,集成到Android端,拟实现拍摄果蔬图像、导入果蔬图像、果蔬品种识别等核心功能,和果蔬营养价值查询、上传果蔬图像到社区、社区用户交流、果蔬参考价格查询等附加功能。 2.3 拟解决的关键问题 (1)数据集预处理 (2)细粒度识别算法的实现及比较 (3)基于Android平台果蔬细粒度识别的设计与开发
|
3. 研究的方法与方案
| 3.研究方法、技术路线、实验方案及可行性分析 3.1研究方法 1.通过查阅书籍资料以及网上搜索相关资料做好前期准备 2.了解卷积神经网络 3.学习细粒度识别的基本方法 4.结合现有条件进行系统需求分析、按需求分析进行相关系统设计 5.编写具体代码并进行调试 3.2 技术路线 对于本系统的实现,首先进行系统需求分析,并按照需求分析做出相应的系统设计;然后基于需求进行系统设计,包括划分功能模块,完善系统功能;接着进行各模块的代码编写并拼接调试;最后进行运行测试。具体的技术路线图如下图1所示:
图1 技术路线图
3.3 实验方案 采用Android平台进行开发,开发环境采用pycharm3,Android,Windows10系统。 3.4 可行性分析 系统开发前必须进行可行性分析,本系统主要从经济和技术实现角度进行可行性分析。(1)经济可行性:本软件是基于标准数据集的细粒度分析,目的在于实现细粒度分析的软件平台开发。其数据集网上有资源,不需要使用经费。且已获得细粒度果蔬数据集。 (2)技术可行性:本系统基于Android平台开发,网上具有大量学习资源。上述技术均十分成熟,网络上提出了也有很多基于该技术的论文。因此,本系统的开发在技术上是完全可行的。 |
4. 研究创新点
4.特色或创新之处
针对细粒度图像分类领域正处于发展阶段,相关研究较传统图像识别领域还尚未成熟,因此相关应用开发较少,针对果蔬数据集的研究缺乏,本项目分析开发一个android平台,市场上缺少这样的识别软件。
5. 研究计划与进展
5.研究计划及预期进展
2019年01月01日-02月01日:上网查找资料,学习相关的开发知识;
2019年02月02日-02月16日:对系统进行详细的分析、设计,确定研究方案;
