全文总字数:7741字
1. 研究目的与意义、国内外研究现状(文献综述)
研究背景及意义:
人工智能是近年来的热门研究领域,不断地涌现出新想法、新技术。基于计算机视觉(cv)和自然语言处理(nlp)的视觉问答(visual question answering, vqa)是人工智能研究领域的新兴课题。
视觉问答将图片和与图片相关的自然语言问题作为输入,得到一个自然语言的答案作为输出,答案可以是二值形式,或者是单项选择、几个字的短语。目前vqa被广泛应用于图像字幕处理(imagecaptioning)、目标检测(object diction)、行为识别(action recognition)、视觉跟踪(visualtracking)等领域。
2. 研究的基本内容和问题
研究目标:
分别构建提取图像特征以及问题特征的深层神经网络,搭建基于深层神经网络的视觉问答模型。将视觉问答模型与现有的视觉问答模型结果对比,在已有模型的基础上,增加外部先验知识,不断优化参数,提高模型的准确率。
研究内容:
3. 研究的方法与方案
技术路线:实验方案:
实验一:数据准备
(1) 网上下载亚马逊土耳其人生成的coco、vqa等数据集。
4. 研究创新点
特色或创新之处
本课题主要结合基于神经网络的计算机视觉技术和自然语言处理技术,搭建视觉问答模型,并与现有的视觉问答模型对比。
在构建循环神经网络时丰富数据来源,不仅仅只是训练集中的问答对,同时在提取问题信息时融合与问题信息相关的先验知识,即增加显示的先验知识库。这样可以在一定程度上缓解循环神经网络在学习过程中由于先验知识的缺乏而回答错误,进而改善模型。
5. 研究计划与进展
研究计划及预期进展
a) 2019年1月
搭建keras深度学习框架,学习相关文档,并构建和训练神经网络。处理vqa数据集,将图片和对应的问题、答案合理分类训练样本和测试样本。
