基于深度学习的学术文本语义表示与检索研究开题报告

 2022-01-14 11:01

全文总字数:4170字

1. 研究目的与意义、国内外研究现状(文献综述)

学术文本在最近几年的研究中热度越来越高,出现这种情况的原因一方面因为学术文本的语言较其他文本更加精炼,词语或句子的专指度更高,另一方面则是因为学术文本的篇章结构较为固定,包括引言、研究背景、实验、结论等部分,具有很高的研究价值。在文献检索平台中,文献都划分为了结构化的部分,目的是为了能够按照一定的字段检索到更加相关的文献。但在实际应用中,大多数检索人员会使用一框式检索得到自己想要的文献。一框式检索顾名思义就是将想要检索的文档主题词输入检索框,通过检索平台的检索模型,将文档主题词相关的文献检索出来,呈现给用户,这种检索方式又称为模糊检索。用户使用这种检索方式,不仅检索到的相关文献较少,满足不了自己的检索需求,而且对检索平台的文本匹配模型的要求更高,很大程度上会引起用户流失等现象。如何能够提高文本匹配模型的性能成为了各大检索平台亟待解决的问题。而文本匹配的基础就是文本表示。因此,文本语义表示及其匹配成为了本次研究的重点。

深度学习发展至今,已经在文本表示领域取得了不错的成绩。张建海利用深度学习文本,对事件抽取作了进一步探索,基于句法上下文信息,训练获得句法词向量,并以此为基础做了事件触发词识别,抽取了相对齐全的生物医学事件。马晨峰使用了三种不同原理的网络结构,并根据新闻文本标题与正文在文本长度、信息量上的差异,在模型中对标题与正文的输入分别以不同的网络进行特征提取,更有针对性,获得了不错的新闻分类效果。沈华东等利用深度神经网络 encoder-decoder 基本框架,通过引入注意力模型,提出文本摘要抽取的深层学习模型,实现了摘要句子的抽取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

一、研究目标:信息检索问题是当今人工智能的主要问题,为用户提供正确有效的答案是检索平台和问答系统的关键,探究深度学习在信息检索问题中的作用,对信息检索的准确性及效果提升会有很大的帮助,帮助检索平台提高检索质量

二、研究内容:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

研究方法、技术路线、实验方案及可行性分析

一、研究方法

本研究涉及到文本表示、信息检索、深度学习等领域的交叉与融合,具体而言,主要有以下几种方法:

1. 文本表示的方法。通过自然语言处理领域对文本特征的表示,对后面深度学习、信息检索做一个铺垫。

2. 深度学习的方法。将深度学习的方法,例如CNN、RNN等,使用到文本表示的过程中,探索新的文本表示方法,深度表示文本语义的特征

3. 信息检索的方法。使用文本语义相似度对检索问题与检索文档进行匹配,深入挖掘其中的隐含意义。

二、技术路线

本研究旨在为文献检索平台的用户提供检索多样性的服务,紧紧围绕用户的检索意图,首先搜集用户的检索日志并构建数据库,接着对深度学习的学术文本语义的检索模型进行构建,并对检索数据库的数据进行挖掘,在此基础上简历基于深度学习的文献语义检索研究,最后对模型评价并将其应用于检索平台

三、实验方案

1.通过网络爬虫、利用数据存储及自然语言处理技术,建立基于用户检索日志的数据库,对学术文本语义检索数据进行组织

2.通过传统机器学习的方法和基于深度学习的文本表示方法,利用中文信息处理的方法,建立起学术文本的基本语义表示,发掘学术文本语义的内在联系,并对该联系进行深度挖掘。

3.基于深度学习的检索模型,利用深度学习的文本表示方法,对文本语义的特征进行深度匹配,挖掘出用户的内在检索意图,从而构建出适用于学术检索平台的深度学习检索模型。

4.运用信息检索的知识,基于科学计算的方法,建立关于用户检索的评价标准,挖掘用户检索数据的隐藏价值。

四、可行性分析

(1)本人的指导老师在信息检索、深度学习和文本表示领域积累了丰富的经验,具有技术上的可行性。

(2)本人指导老师的项目组在相关资料方面已经积累了大量的学术文本数据、用户检索日志及程序,在资源上提供了有力的保障。

(3)本人在大学期间努力学习深度学习的相关知识,编写了很多的代码,了解了有关信息检索与文本表示的许多方法,为本研究的顺利开展提供了实现的可能。

4. 研究创新点

1. 通过以往的深度学习表示模型,将研究对象从百科问答迁移到学术文本文献上来,对学术文本有一个更好地表达,重新利用文献检索平台的数据

2. 使用基于深度学习的检索模型,将模型迁移到学术文献,挖掘用户检索查询的深层含义,并构建特定领域的检索模型,将其应用于学术检索平台上

5. 研究计划与进展

2019年3月20日-4月10日,明确研究内容,撰写文献综述,搜集用户检索日志

2019年4月10日-4月20日,清洗用户检索日志,选择合适的文本语义表示模型及检索模型

2019年4月20日-5月10日,训练文本语义表示模型及检索模型,选择合适的参数,得到最优的检索模型

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。