文献综述(或调研报告):
调研报告
信息检索起初主要面向科学文献和馆藏记录等专业领域,随着因特网和Web技术的发展,以搜索引擎为代表的信息检索技术很快就扩展到了其他形式的内容。Web搜索引擎已经成为用户发现和获取信息的常规和首选渠道。在过去的二十年来,信息检索的效果不断优化已经使web搜索引擎达到了很高的水平。传统检索模型和方法如LDA主题模型,向量空间模型等是学习信息检索的基础,同时,机器学习技术也被引入进来,被用于进行文档的聚类(K-Means, EM算法)和分类(KNN, 朴素贝叶斯方法),取得了不错的效果。
随着近十年深度学习技术的进步,将深度学习技术引入信息检索呼之欲出。文献[2]“A deep architecture for matching short text” 发表自2013年的NIPS上,是较早在信息检索领域引入深度神经网络的论文之一。它提出了一个被称为DeepMatch的神经网络语义匹配模型。该模型的提出基于文本匹配过程的两个原则:Localness,即两个语义相关的文本应该存在word级别的共现模式;Hierarchy,即共现模式可能在不同的词抽象层次中出现。模型实现时,并不是直接统计两段短文本是否有共现词,而是先用(Q, A)语料训练 LDA 主题模型,得到其 topic words,这些主题词被用来检测两个文本是否有共现词,例如,若文本 X 和文本 Y 都可以归类到某些主题词,则意味着它们可能存在语义相关性。而词抽象层次则体现在,每次指定不同的 topic 个数,训练一个 LDA 模型,最终会得到几个不同分辨率的主题模型,高分辨率模型的 topic words 通常更具体,低分辨率模型的 topic words 则相对抽象。在高分辨率层级无共现关系的文本,可能会在低分辨率层级存在更抽象的语义关联。不难看到,借助主题模型反映词的共现关系,可以避免短文本词稀疏带来的问题,且能得到出不同的抽象层级,是本文的创新点。
这篇文章处理的是word-level的短文本的匹配问题,作为将深度模型引入到信息检索领域的较早的论文,如何将传统的主题模型和深度神经网络相结合的思路被许多学者广泛地借鉴。
由于自然语言文本的灵活性,基于文本的信息检索技术被广泛的应用,但同时也面临着一些问题。因为基于文本的检索只是在查询关键词和文档之间进行匹配,缺乏语义上的理解,往往只是进行的信息的中转。
随着2013年谷歌推出了word2vec框架,提出了Word Embeddings方法,可以将词映射为固定长度的向量,同时捕捉其语义关系。相比传统的词袋模型,通过Tf-Idf权重构建的特征向量,词嵌入向量更能捕捉其上下文的语义特征。相比于one-hot编码方法,词嵌入方法得到的词向量更短更紧密。基于上述优点,词嵌入方法被广泛地应用与自然语言处理的各个领域,信息检索也不例外。
文献[5] “Embedding-based Query Language Models”是将embeddings方法应用到ad-hoc 检索的一篇论文。它使用了与传统向量空间模型类似的相似度计算方法,但为了能更有效地判别是否相关,加入了sigmoid函数用于判别。同时,该文档给出了基于embedding下查询扩展和相关反馈(relevance feedback)的来优化检索的质量。查询扩展指的是对用户查询文本进行语义上的扩展,相关反馈是指将用户的反馈集成到检索模型中,使得查询的结果逐步接近真实的答案。在检索系统实际运行的过程中,相关反馈的过程往往是自动的,比如通过用户行为(如点击次数,浏览时间等)默认为该文档是正面的。
