1. 研究目的与意义
在互联网时代,大规模数据的产生、传播和积累推动着数据处理技术的发展。随着智能终端设备的普及和多媒体应用的爆发式增长,相应数据的产生和积累也与日俱增,如何更好的利用和处理这些数据已经成为普遍关注的问题。
2. 研究内容和预期目标
3. 研究的方法与步骤
本课题是研究如何从一句描述性文本生成一张与文本内容相对应的图片,使用gan-int-cls和gawwn两种算法,其中着重研究以gan为模型主干基于深度学习的算法。
3.1 gan-int-cls
gan-int-cls[12]网络以gan为模型主干,同时在输入中增加文本特征来作为生成器和鉴别器的约束,最终生成64x64的图像。在生成器中,text embedding跟随机噪声融合后一起输入到生成网络中;在鉴别器中,生成图像在下采样之后,跟之前的text embedding在空间复制之后融合,最后鉴别器根据融合特征进行判定。其中gan-cls主要加入了matching-aware discriminator,即在鉴别器中对错误情况进行分类(pair loss),一种是生成的fake图像匹配了正确的文本,另一种是真实图像但匹配了错误文本,利用这种机制使得鉴别器网络不仅能够识别图像是否是生成器生成的(image loss),并且能够鉴别生成图像跟给定文本的匹配关系,从而保证生成图像符合文本描述。gan-int主要解决了文本信息的稀疏问题,在给出的文本特征中插值以获得生成图像的多样性。模型结构如下图所示。可以看到,图的左侧是生成网络,右侧是判别网络[3]。
4. 参考文献
[1]赵小虎,尹良飞,赵成龙. 基于全局-局部特征和自适应注意力机制的图像语义描述算法[j]. 浙江大学学报(工学版),2020:126-134.
[2]郭腾州,孙宝山. 深度学习在文本生成中的应用研究[j]. 仪器仪表用户,2020:110-112 42.
[3]梁俊杰,韦舰晶,蒋正锋. 生成对抗网络gan综述[j]. 计算机科学与探索,2020:1-17.
5. 计划与进度安排
进度安排
(1) 2022 年 12 月 01 日 – 2022 年 02 月 20 日:查阅资料,熟悉相关技术;
