1. 研究目的与意义(文献综述)
随着计算机技术和网络技术的快速发展,每天都有成千上万的图片产生,如何从如此大量的图片库中快速而准确地找到满足用户需求的图片就成为迫切需要研究的热点问题。
传统的图像检索技术[1]最早来源于上世纪70年代的美国高校,它的产生主要是由于当时的计算机和互联网技术的快速发展,图片、视频数据在互联网上呈现爆炸式的增长。后来又出现了一种基于文本的图片搜索技术。在基于文本的图片搜索技术研究的早期,图片被作为数据库中存储的一个对象,并人工地用文本对其进行描述。这种方法比较简单易行,一般是使用数据库管理系统(dbms)来实现,当然,这种方式的缺点也是很明显的:一是需要人工对图片进行注释,工作量相当大,特别是图片数据量非常大时,人工标注是不切实际的;二是人工标注不可避免的会带来主观性和不准确性,因为不同的人对同一幅图片的理解可能是不相同的。所以说在互联网环境下,对网上的海量图片数据进行人工注释是不现实的。
随着信息搜索技术的不断成熟,互联网网页信息自动采集和标引作为搜索引擎的重要组成部分,也得到了深入的研究。这项技术被广泛应用于文本搜索引擎中,同时也用来对图片搜索引擎技术进行改进,因为,与文件系统中独立的图片文件不同,互联网上的图片是作为网页的一部分出现的,具有相关的上下文环境,图片所在网页的标题、图片的提示文字、图片的文件名称、与图片密切环绕的文字以及网页中的其它文字,都可以作为对图片进行描述的依据。目前谷歌、雅虎、百度提供的图片搜索服务,都有使用这项技术。然而,利用网页上的文字来对网页中的图片进行标注,是非常不精确的。
2. 研究的基本内容与方案
本文主要研究基于多特征融合的图片相似度求值方案,在广泛阅读国内外相关文献,分析课题的研究背景、意义和研究现状的基础上,将完成以下工作:
- 对图像特征进行学习与理解,并根据一定的规则选取出一组具有代表性的图像特征集合作为图片的描述依据。选取规则主要会从图像特征集的全面性以及图像特征索引速度两方面进行考虑。
- 通过对现有的多特征融合方案进行学习与理解,再结合本文研究方向的特殊性,提出一种图像特征系数的求值方案。该方案所求得的图像特征系数将作为每种图像特征在特征融合时的权重。
- 学习现有的搜索引擎框架,结合本文所提出的多特征融合方案,设计一个基于多特征融合的图片搜索引擎。
本文所要完成的系统将会分为图像特征值索引的生成以及相似图片的搜索两个模块。索引生成模块是为搜索模块而服务的,它所生成的索引文件都是为了搜索模块在搜索相似图片时所使用。但二者之间不会产生任何耦合,因此这两个模块将会设计成两个完全独立的模块,唯一有联系的地方就是搜索模块需要依赖索引生成模块所生成的索引文件。
3. 研究计划与安排
(1)2016/1/11—2016/1/22:查阅参考文献,明确选题的目的意义及其所要达到的目标
(2)2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;
(3)2016/3/8—2016/4/26:需求分析,概要设计,算法以及系统设计,系统实现;
4. 参考文献(12篇以上)
[1] 李向阳,庄越挺,潘云鹤,基于内容的图像检索技术与系统[j]. 计算机研究与发展,2001,38(3):344~354.
[2] 张锋利.基于内容的图像检索方法研究[d]. 吉林:吉林大学,2005:31~35.
