1. 研究目的与意义
伴随着互联网信息技术的飞速发展,以及科学技术的不断进步,融合视觉和文本信息的多模态数据在急剧增加,例如,带文本标注的照片、报纸文章中的图文对照内容、带标题的视频以及社交媒体出现的多模态交互数据。图像中的文本检测和识别问题受到越来越多的关注,图像中的文本信息是理解整个图像的重要内容。基于内容的图像索引,是指基于内容给图像贴上标签的过程。多模态机器学习为机器提供了处理多模态数据的能力,多模态学习的长远目标是使机器充分感知环境,更智能地和环境进行交互。本文聚焦于多模态学习中的图像文本描述方法[1]。使用图像文本描述方法可以有效组织图像数据,结合文本信息检索技术方便地对海量图像数据进行搜索,能够从幻灯片中的图片读懂演讲者所讲的内容[2]。此外,使用图像文本描述方法可以帮助视觉障碍者理解图像。
根据所处阶段的关键技术不同及文本描述方法的不同,多模态数据转换方法分为以下三大类。
(1)基于生成的方法[3]。该方法分为检测过程和生成过程。检测过程基于图像特征检测图像中出现的对象、对象属性、图像表达内容的场景和行为等信息;生成过程使用这些信息驱动自然语言产生系统输出图像的文本描述。但是其语言表达能力很弱。
2. 研究内容和预期目标
一、研究内容
(1)了解常用的多模态数据转换方法和发展现状;
(2)熟悉深度学习的基本原理和方法,其中引人了生成对抗网络;
3. 研究的方法与步骤
3.1 编码--解码器的架构
这种架构原本是为机器翻译开发的,其中输入的序列会被一个编码器网络编码成固定长度的向量。然后一个分立的解码器网络会读取这些编码并用另一种语言生成输出序列。除了能力出色外,这种方法的好处是可以在该问题上训练单个端到端模型。当将该方法用于图像描述时,编码器网络使用了深度卷积神经网络,解码器网络则是lstm层的堆叠。
3.1.1 卷积神经网络(cnn)原理概述
4. 参考文献
| [1] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention[J]. In International Conference on Machine Learning, pages 2048–2057, 2015. [2]Q.You,H.Jin,Z.Wang,C.Fang,andJ.Luo. Imagecaptioningwithsemanticattention[J]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4651–4659, 2016. [3] 李勇, 成红红, 梁新彦, 郭倩, 钱宇华.CNN图像标题生成[J].西安电子科技大学学报, 2018. [4]张倩宇; 宋彩芳. 生成式对抗网络研究综述[J]. 电子技术与软件工程 ,2019. [5] 徐俊.基于视觉的文本生成方法研究[D]. 中国科技大学博士论文, 2018. [6] 吕凡,胡伏原等.基于注意力反馈机制的图像自动语句标注模型[J]. 计算机辅助设计与图形学学报, 2019. [7]马龙龙; 韩先培; 孙乐.图像的文本描述方法研究综述[J].中文信息学报,2018. [8] 刘凯, 张立民, 孙永威, 林雪原. 利用深度玻尔兹曼机与典型相关分析的自动图像标注算法[J].西安交通大学学报, 2015. [9] 蒋梦迪, 程江华, 陈明辉,等. 视频和图像文本提取方法综述[J]. 计算机科学, 2017. [10] 赵磊. 基于深度学习的多模态数据特征提取与选择方法研究[D]. 天津大学, 2016. [11] Guo J , Lu S , Cai H , et al. Long Text Generation via Adversarial Training with Leaked Information[J]. 2017. [12] 刘玉杰, 窦长红, 赵其鲁, et al. 基于条件生成对抗网络的手绘图像检索[J]. 计算机辅助设计与图形学学报, 2017. [13] 唐贤伦, 杜一铭, 刘雨微, et al. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018. [14] Gulrajani I , Ahmed F , Arjovsky M , et al. Improved Training of Wasserstein GANs[J]. 2017. [15] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN[J]. 2017.
|
5. 计划与进度安排
毕业设计工作安排:
2022 年3 月1日 ~ 2022 年3月15日:调研,确定具体研究方案和实施计划
2022年3月15日 ~ 2022年4月1日:撰写开题报告
