|
文献综述: |
|
1.研究背景 随着数码设备的日益普及以及互联网技术的迅速发展,图像资源越来越丰富。但是由于图像数据具有多样性,复杂性和无规则性等特点,如何快速,准确的从海量资源总查找出用户感兴趣的图像成为一项非常具有前景的挑战。而解决这一问题的重要途径就是通过对互联网图像进行自动图像标注,建立图像底层视觉内容和高层语义之间的联系,并且利用标注对图像进行索引。而且近年来,以Flickr为代表的图片共享社区的兴起和繁荣也让图像标注在Web2.0环境下被赋予了新的生命。此外,在商业应用、数字图书馆、军事、生物医学、网络监控、国家安全等方面也有重要的意义。 由于图像数量的巨大,依靠手工对图像进行标注费用昂贵,已经不能满足实际的需要。从标注使用的训练集来看,自动图像标注技术经历了两个阶段:第一个阶段可以看成是在有限数据集上的图像标注,利用一些传统的机器学习、物体识别的方法建立图像底层特征和高层语义的联系,如基于分类器的方法、基于跨媒体相关的方法、基于翻译模型的方法以及基于隐变量的生成式模型方法等;第二个阶段是基于互联网数据集的图像标注方法,这种方法更多的是从标注的框架和效率入手,充分利用了互联网的丰富资源,大大拓展了训练集的范围,因而更符合互联网环境下图像标注的实际需要,也是近年来图像标注研究的热点。 为了应对上述问题,各种图像搜索引擎应运而生,如Google,Y加o,PiCasa 等。图像检索自1970年以来,一直成为人们研究的热门课题(Rui et al,1999)。从 图像检索发展的过程来看,主要经历了三个阶段:基于文本的图像检索,基于内 容的图像检索以及基于网页内容和结构的检索方式。 2.研究意义 图像标注最直接的研究驱动力当然是为了更方便地进行图像检索。当互联网各方面的应用越来越普及,数码设备逐渐进入千家万户,人们拍摄照片变得越来越便利,而且乐于在互联网图片共享社区中与其他用户分享自己的照片和心得时图像标注技术也衍生出很多新的有特色的应用,超越了仅仅为提高图像检索效率 和准确性的前期处理的角色,在互联网时代下被赋予了新的生命。 首先,随着数码设备的普及,用户保存的数字图像数量越来越大,这对有效 地图片管理提出了重要的挑战。家庭数字影集如今己变得越来越庞大.已经出现 了很多工作尝试对家庭影集进行标注,对影集中的图片添加适当的标注,以方便 用户查找照片和对照片进行归类整理等。另外,还有一些工作尝试对家庭影集中 的人物进行标注,根据已有的人物标注的训练集,对照片中的人物添加人名,以 方便自己和其他亲朋好友更好地回忆往昔和认识新朋友。其次,正是由于用户图片数量的急剧增长,互联网图片社区共享网站近年来也得到了迅猛发展,如Flickr,Photosig,TrecEarth,Yupoo,Bababian等。这些图片共享社区有大量的用户,而且用户的数量每天都在快速增长,社区中的图片数量也急刷增长。用户在上传图片到这些共享网站时,常常会添加几个标注词来描述上传的图像,这些标注词描述的内容往往非常广泛,如地点、景物、人物、事件等,涵盖多种多样的语义。用户提供的标注词可以极大地减少构建图像标注训练集的人力和财力,如何有效地利用庞大的用户提供的描述词来帮助图像标注是一项很有挑战的工作。不同于有限训练集上的图像标注,互联网环境下的数据往往非常庞大,必须采取有效的数据挖掘才能有效地将这些数据为我所用。 另外,虽然很多用户会添加一些标注词来描述要上传的图像.但对一般的用 户而言,添加标注词仍然是一项费事费力的工作,从用户本身而言并不十分情愿 一直做这样的工作。已经有一些工作着手尝试提供一些标注词的建议(Tag Suggestion),即根据图像内容本身系统自动向用户推荐一些可能的标注词,以减轻用户的工作量。除此之外,由于用户的不同特点,针对同一幅图像,不同的 用户选择的标注词往往不同,因此,个性化标注词推荐技术也成为了一项很有意 义的工作,根据用户自身的特点,向不同的用户推荐与其兴趣相关联的标注词。 这不仅仅能推荐用户更喜欢的标注词,也可以吸引更多的用户加入到这一行列中, 为图片社区本身的发展以及推动图像标注技术进步都有着重要的意义。 图像标注技术还在其他领域有着广泛的应用,如医学图像检索(Fang et a1.2006),商标检索(Schitse et al.2007)和人脸识别(Lehmann et a1.2005)等。 3.研究现状及成果 图像标注技术的研究已经有很多年了。实际上,利用人工标注图像进行检索的工作可以看成最早期的图像标注,只不过由于人工标注代价实在太大,费时费力, 而且不同的人对图像标注一致性无法保证。因此,这种方式已经逐渐被自动图像标注取代。 近些年来,图像检索的迫切需要推动了图像标注技术研究的发展,各种图像标注算法应运而生,特别是随着互联网的发展,给图像标注技术带来了新的生长空间。根据训练集的大小,可以把图像标注技术的研究分成两个阶段:基于有限数据集的图像标注技术和基于互联网数据集的图像标注技术。基于有限数据集的图像标注指的是在一个事先定义好的数据集(如Corel数据集)上,应用各种不同的机器学习的方法,对测试图像进行标注,最后的标注词也都完全包含在已有的训练集中。由于训练集规模有限,可以尝试使用各种不同的机器学习办法来学习图像的标注词,并选择性能较好的机器学习方法。然而也正是由于训练集规模有限,这种方法很难扩展到大规模的互联网图像的应用场景中,离满足实际的应用需要还有一段距离。 近年来,基于互联网数据集的图像标注算法逐渐盛行,很多工作充分利用了互联网这样一个庞大的训练集来寻找图像的标注词,这种方法的优点是数据量大,图像标注方法灵活,比较贴近实际应用的需要。 总的来说,现状国际上大致有如下两大研究图像标注的方法: 1基于有限训练集的图像标注算法,包括有 (1)基于机器翻译的图像标注算法 (2)基于分类器的图像标注算法 (3)基于跨媒体相关模型的图像标注算法(CMRM) (4)连续相关模型(CRM) (5)多伯努利相关模型(MBRM) (6)基于隐变量的生成式模型 (7)除了上述模型以外,还有一些工作对图像标注进行了研究,如基于图的图像标注学习方法(Liu et al 2009),Wang et al(2009)提出了综合利用图像的全局特征、局部区域特征以及上下文特征的图像标注方法,并将不同的特征融入概率潜在语义模型中(PLSA).Hu et al(2009)提出了基于多实例学习的半监督学习框架进行图像标注,王斌等(2009)提出了一种渐进式图像标注算法。 2基于互联网数据集的图像标注算法,包括有 (1)AnnoSearch(Wang et al,2006)是基于互联网数据集对图像标注的最早的工作之一,它突破了传统方法中对训练集和训练方法的过度依赖,并且可以较灵活地扩展到庞大的互联网数据集中,其核心思想就是:对于待标注的图像,在一个较大的数据集中找到一幅或几幅与它最相近的图像,再从这些相近图像的标注词中学习出最终的标注词。 (2)基于搜索的图像标注SBIA (3)BGRM (4)DCMRM 4.引用文献 [1]Zhiwu Lu, Yuxin Peng. Image annotation by semantic sparse recoding of visual content. In ACM Multimedia, pages 499 – 508, 2012. [2] Page, Larry, 'PageRank: Bringing Order to the Web' at the Wayback Machine (archived May 6, 2002), Stanford Digital Library Project, talk. August 18, 1997. [3] Xirong Li, Cees G. M. Snoek, Marcel Worring (2008): Learning tag relevance by neighbor voting for social image retrieval. In: ACM International Conference on Multimedia Information Retrieval (MIR), pp. 180–187, 2008.
[4] X. Rui, M. Li, Z. Li, W. Ma, N. Yu. Bipartite Graph Reinforcement Model for Web Image Annotation. ACM Multimedia, 2007. [7] Behold http://www.behold.cc/ [8] Google Image Labeler http://images.google.com/imagelabeler/ [9] Flickr. http://www.flickr.com/ [10] Flickrj. http://flickrj.sourceforge.net/ [11] M.Grubinger, P. Clough, A. Hanbury, and H. Muller, “Overview of the ImageCLEFphoto 2007 Photographic Retrieval”, Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007. 12. Y. Fujiwara, G. Irie. Efficient Label Progation. ICML 2014. 13. She Qiaoqiao, Yu Yang, Jiang Yuan, and Zhou Zhihua. Large-Scale Image Annotation via Random Forest Based Label Propagation. 《计算机研究与发展》 14. Zhanying Hea, Chun Chena, Jiajun Bua, Ping Lia, Deng Cai. Multi-view based multi-label propagation for image annotation. Neurocomputing 168: 853-860, 2015. 15. Sanparith Marukatat. Image annotation using label propagation algorithm. |
