1. 研究目的与意义、国内外研究现状(文献综述)
1.1 本课题的意义图像描述生成技术(image caption)是一个计算机视觉与nlp的交叉研究领域,今年的8月腾讯的ai lab凭借自主研发的强化学习算法在由微软公司举办的基于mscoco数据集的图像描述生成技术的任务中排名第一,超过了微软、谷歌和ibm等参赛公司。
通俗地来说,图像描述生成研究的是使机器拥有人类理解图像的能力,并用人类语言描述感知到的图像内容。
与传统的图像分类和给图像提供标签不同,图像描述生成使得机器可以帮助有视觉障碍的人来理解图像,给图像提供除了标签以外更加丰富的描述,因此这项任务具有广泛的实际意义。
2. 研究的基本内容和问题
2.1 研究目标采用目前最为流行的编码器-解码器模型框架,基于python下tensorflow框架进行开发,使用caffe框架对图片的卷积部分进行处理,采用微软coco2017数据集完成训练过程,使用目前使用较为广泛的bleu方法,基于coco数据集、flickr8k数据集等目前较长使用的数据集进行模型准确率的验证。
初步使用cnn-rnn框架完成对模型的搭建,在初步搭建完成后将rnn模型替换为lstm长短时模型,引入注意力机制,加入对图像局部特征和全局特征等不同特征的提取,逐步去除对caffe等现有框架的函数包的以来,使用基于python的tensorflow框架完成整个模型的训练过程。
尝试对模型进行修改引入不同的图像特征提取方法,如以全局特征为主的特征提取方法和以局部特征为主的提取方法,比较不同模型对于不同数据集之间的准确率,结合现有论文对不同的方法和模型框架在不同情况下的适用性进行比较。
3. 研究的方法与方案
3.1 研究方法和技术路线研究方法和技术路线如图4所示3.2 可行性分析(1)学习过卷积神经网络及深度学习的基本知识;(2)参加过由搜狐大数据中心举办的图文匹配大赛,使用过谷歌公司的开源模型框架inception V3对图像进行分类,以及Word2vec对中文文本进行处理;(3)图像描述生成技术近年来发展迅速,国内外的实验团队都取得了很好的研究成果,由丰富的相关文献,及开源代码可以查询、收集和学习;
4. 研究创新点
在目前,虽然图像描述生成技术已经较为成熟,但目前技术对于图像的描述生成还是以英文为主。
中文受到需要成熟的分词技术的局限性,在自然语言处理环节没有英文那么方便。
在技术飞速发展的今天,由谷歌公司提供的开源框架word2vec技术,将文本词组转换为向量表述已经可以支持对中文的处理。
5. 研究计划与进展
5.1 研究计划(1)2017年1月1日-2017年1月15日阅读相关文献,对目前已有的技术和发展进行资料的收集和分析;(2)2017年1月16日-2017年1月31日系统性地学习长短时记忆模型等相关理论知识的学习;(3)2017年2月1日-2月20日完成使用基于Python的网络模型框架的搭建,使用Caffe框架的Python接口,完成对数据集的训练,并进行初步的测试;(4)2017年2月21日-2月28日逐步脱去对现有函数包的依赖;(5)2017年3月1日-3月15日将模型引入注意力(Attention)机制,增加模型的复杂度,并比较和普通模型相比的准确率的提高;(6)2017年3月16日-3月31日使用不同的方法提取图像的不同特征,并比较不同方法在相同数据集的准确率以及在不同情况下的适用情况;(7)2017年4月1日-4月15日开发应用,实现搜索;(8)2017年4月16日-4月31日结合相关资料,撰写毕业论文;5.2 预期进展(1)使用基于Python的Tensorflow框架完成编码器-解码器的网络模型框架的搭建,使用卷积神经网络提取图像特征,长短时记忆模型学习并生成图像描述语句;(2)引入注意力(Attention)的机制,研究不同的模型框架,对图像不同特征的提取对最后生成的图像描述语句的准确率的影响,以及在不同情况下的适用性;(3)开发一款基于安卓平台的手机应用,实现手机端和服务器的通信,实现由手机端完成对图片的手机,服务器对图像进行特征提取,描述语句预测的功能,并将结果返回手机端;(4)查询近年来在图像描述生成技术方面取得显著成果的实验室及个人的相关论文及开源代码,结合自身的了解与实验,撰写本科毕业设计论文;
