基于跨模态的图像检索方法研究开题报告

 2022-01-13 20:44:39

全文总字数:3377字

1. 研究目的与意义(文献综述)

随着移动设备、社交网络和自媒体平台的快速 发展,近些年文本、图像、视频和音频等多媒体数据呈现爆炸式增长。最新数据显示,Youtube每分钟有长达300 h的视频上传;Flickr、Snapchat等图片分享网站每天有上亿的图片上传;Facebook、Twitter等社交媒体网站上,用户每天都分享着海量的文本、图片和视频等多媒体数据[1]。这些数据信息的表现形式不同,但往往有不同形式信息描述的却是同一个对象,比如一张计算机图片与文字“计算机”描述的都是同意客观对象,如何将不同的信息表现形式联系起来,使其能够跨膜态检索成为了新的课题。

目前图像、文本检索的研究主要集中在单模态检索上,查询和候选集的内容均属于同一模态。例如,给定一个文本查询,单模态的方法直接与网络上的文本原数据进行匹配,而不是相一致的图像。通常这些单模态的方法不能应用于跨媒体检索。跨媒体检索是多媒体检索中基于内容的一个新的研究领域,由于不同模态的数据之间存在着异构性难以实现直接互检[8]。近年来,一些研究者先后提出了类似跨媒体检索思想的研究,挖掘不同模态之间的相关性。比如,熊昊哲等学者提出面向Web图像检索的语义关联多模态哈希方法[10],黄育等学者提出的基于潜语义主题加强的跨媒体检索算法[5],还有刘爽等学者提出的基于双向学习排序的跨媒体语义相似性度量方法[6]等等。即使这些已有的方法解决了跨媒体检索的问题,但是大多数方法只专注于通过两个特征空间的距离来学习两种模态的相关性,从而忽略了不同的语义特征。另外,类标签信息也没有得到充分的利用。为充分学习在不同特征空间中的异构特征,稀疏字典学习日益受到广泛的关注[8][12]

从图像中提取语义信息,实际上就是利用先验知识将低层视觉特征映射到高层语义。对于人类来说,这样的知识可以通过日积月累获得。但是,对于语义检索系统,只能是事先提供知识库,而这种知识库生成一般比较困难,通常要利用专家知识或进行大量的试验。由于通过人工干预生成的语义知识库工作量很大,因此可以利用机器学习和数据挖掘方法来尝试自动语义规则的生成方法,也可以利用人工智能方法来实现图像语义特征提取的方法即利用模糊逻辑、神经网络和遗传算法3者的融合来提取图像的语义信息,以便提高图像的检索效率和精度[3]。本文侧重采用基于字典学习的跨膜态图像检索方法。

2. 研究的基本内容与方案

一、基本内容:

本研究旨在从训练数据中找到一组特殊的稀疏编码,这一组稀疏元素足以线性地表示这些原始数据的特征,从而用尽可能少的数据表示尽可能多的内容。因此,字典实质上是对庞大数据集的降维,稀疏表示是用尽可能少的数据表示尽可能多的特征,以提高检索效率。由于这种表示是有效的,字典学习得到了广泛的应用。本研究中主要关注图像与文本之间的多媒体检索,使用图像搜索文本文档或者文本搜索图像。为了提高跨媒体检索效率,本研究旨在提出一种基于模态独立的字典学习方法,其中字典学习模型是关键技术,并将图像检索文本与文本检索图像的任务分开训练;最后确定目标函数,根据不同的参数设置来讨论它们的优化算法。

二、目标:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1月18日-1月31日

明确选题,查阅参考文献;

2月1日-2月20日

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]欧卫华, 刘彬, 周永辉, 等. 跨模态检索研究综述[j]. 贵州师范大学学报 (自然科学版),2018 (2): 19.

[2]蔡平, 王志强, 傅向华. 基于语义的跨媒体信息检索技术研究[j]. 微电子学与计算机, 2010, 3: 102-105.

[3]李志义, 黄子风, 许晓绵. 基于表示学习的跨模态检索模型与特征抽取研究综述[j]. 情报学报, 2018, 37(4): 422-435.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版