1. 研究目的与意义、国内外研究现状(文献综述)
意义
通过自然语言描述自动生成图像在图像生成领域一直都是一项很具有挑战的任务,是结合计算机视觉和自然语言处理两个领域的综合性任务,在许多应用方面都有着广泛的需求和巨大的实用价值,比如艺术生成,计算机辅助设计等。近年来,这个研究领域也越来越活跃,并且已经取得了很大的进展。
2. 研究的基本内容和问题
本项目旨在实现一个综合的文本图像生成系统,包含算法实验与效果展示两大模块,如图1所示,下面分别进行介绍。
3. 研究的方法与方案
研究方法
(1)整理归纳:从谷歌学术、知网、ieee等资料库中广泛搜索相关研究文献,整理归纳知识体系,评估值得借鉴的方法。
(2)比对研究:以is得分和主观感受为标准,分别比价不同特征提取模型、图像生成模型、优化迭代方案的优劣,在对此种获得改进和提高现有模型的灵感。
4. 研究创新点
文本图像生成问题(text to image)虽说是一个较为新的研究方向,但是有一些和它类似的研究,比如图像转换(image to image)和图像标注(image to text),尤其是图形标注问题,它和文本图像生成可以说是逆问题,于是我打算采用这两个相关领域的方法,将它们组合到文本图像生成领域中;
比如通过在文本到图像生成中,添加额外的图像标注模块,既然要追求语义的一致性,那么新生成的标注和原始的输入语句在特征空间上一定是相近的,所以可以利用这一性质,增加gan模型的限制,从而提高精度以及增强gan网络训练的稳定性;
图像转换方面的方法也可以用到我们的模型中,比如在对生成图像进行标注后,将这段生成文本再送到生成模型中,产生另一个生成图片,我的想法是,既然追求语义的一致性,那么这一过程中生成的两张图片的特征也一定要是相似的,由此迫使模型有更好的泛化能力;
5. 研究计划与进展
研究计划及预期进展
2020.1~2020.2 通过网络课程学习相关理论知识,巩固pytorch编程实现;
