图像字幕的自动生成技术研究开题报告

 2022-01-16 18:35:59

全文总字数:4662字

1. 研究目的与意义、国内外研究现状(文献综述)

研究的背景:

image caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。图像理解可以认为是一种动态的目标检测[1],由全局信息生成图像摘要。早先的做法例如《baby talk》,《every picture tell a story》等都是利用图像处理的一些算子提取出图像的特征,经过svm分类等等得到图像中可能存在的目标object。根据提取出的object以及它们的属性利用crf或者是一些认为制定的规则来恢复成对图像的描述[2]。这种做法非常依赖于1)图像特征的提取2)生成句子时所需要的规则。自然而然这种效果并不理想。

随着深度学习领域的发展,一种将深度卷积神经网络(deep convolutional neural network)和循环神经网络(recurrent neural network)结合起来的方法在图像标注问题上取得了显著的进步[3][4]。由于该方法的成功,使得基于该方法的对图像标注问题研究迅速地火热起来,在2016年的ieee国际计算机视觉与模式识别会议(即ieee conference on computer vision and pattern recognition,缩写为cvpr)上专门有一个小型会议(session)的主题就是图像标注[5]

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究的目标及研究内容

研究目标:

①制定针对microsoft coco caption数据集的合理量化方案。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

技术路线

总体架构图

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

特色或创新之处

本课题的创新之处主要体现在运用神经网络实现图像描述算法的做法还比较新颖,同时,课题的关注点在于未被较好解决的问题。

且本课题具有很好的意义,即图像标注问题如果能够得到很好的解决,那么价值是显而易见的,可以应用到图像检索,儿童教育和视力受损人士的生活辅助等方面。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

研究计划及预期进展

2019年 2月1-20日 卷积神经网络与递归神经网络等深度学习概念初步了解。

2019年 2月20-3月5日 模拟实现开源项目。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付