基于篇章结构的中文长文本自动摘要系统研究与实现开题报告

 2022-06-05 22:06:40

1. 研究目的与意义

互联网技术的快速发展使得人们对于信息的获取越来越方便、快捷,随之而来的就是人们对于信息的质量、价值等属性要求越来越高。自动摘要技术就是利用计算机对文档做进行自动处理,生成包含源文档核心内容的摘要,实现对于文档的提取与压缩。自动摘要技术于1958年首次被提出,随着技术的发展与信息爆炸等问题,人们对于自动摘要技术的需求越来越迫切。

针对这种需求,研究人员提出了各种计算方法。

最开始,研究人员采用的是基于简单统计的方法,随着自动摘要研究的深入,研究人员不再满足于简单统计文本本身的特征,开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等,从而得到重要句子。tf-idf方法就是在这个时候提出的。tf-idf(词频-逆文档频率)用以评估字词在一个文件集或一个语料库中的其中一份文件中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的频率(tf)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。但是,idf的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好的完成对权值的调整功能,所以在一定程度上该算法的精度并不是很高。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

在自动摘要的历程上,传统利用词序列或句子序列抽取核心关键词的方式,忽略了文本在篇章结构方面的逻辑表示,从而导致生成摘要在逻辑结构上存在缺陷。针对此问题,本课题旨在研究如何通过计算机,从原始长文本中提取能够全面、准确反映其中心内容的摘要,并且能够尽量保证摘要在逻辑结构上的合理性。

wen xiao等人提出了一种通过结合全局的整体上下文和每个主题的局部上下文,专门为长文档设计的模型。在两个包含了比以前所使用到的语料库的文档都长的大型科学论文数据集上,作者评估了这种模型,并和其他的模型进行了比较,发觉该模型在这两个数据集上达到了最新水平,并且对于越长的文本,该模型的竞争力越强。

然而,该模型是基于对英文长文本的研究与实验,并不能保证其在中文长文本上有着同样的效果。因此,本课题基于该模型,并在该模型的基础上,进一步研究分析关键微观话题结构信息,提出更加适合中文长文本的自动文本摘要模型。之后,本课题将对该模型进行优化,基于微观话题结构,提升该模型在自动摘要时的性能指标。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

本课题基于篇章微观话题结构理论,面向长文本语料库,通过构建启发式规则与深度神经网络encode-decode相融合的模型,实现一个长文本自动摘要原型系统。通过此模型,可以按序访问每个句子,并计算出相应的置信度得分,表示该句子是否应包含在摘要中。

考虑到文章的整体篇章结构,本课题的提取式摘要器拟采用lstm-minus方法。lstm-minus方法最初是在2016年提出的,它是一种学习句子句子段嵌入以进行基于图的依赖解析的新方法,即估计给定的输入句子的最可能依赖树的方法。对于每一个依赖项,他们将一个句子分为三个段(前缀、中缀、后缀),lstm-minus用于表示每个段。他们将一个单独的lstm应用于整个句子,并使用两个隐藏状态hj-hi之间的差异来表示单词wi到单词wj的片段。这使他们的模型能够从句段的内外部信息里学习句段嵌入,从而增强他们模型访问句子级信息的能力。同样地在本课题中,当决定一个句子是否应该被包含在摘要中时,通过在整体篇章级别使用lstm-minus方法来捕获这个句子的上下文,以表示目标句子所属的文档的句子的子序列。

句子编码器的目的是映射单词嵌入的顺序到固定长度的向量里,本课题拟采用平均词嵌入,也就是一个句子的嵌入是它的词嵌入的平均值的方法,作为句子编码器。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1].wen xiao,giuseppe carenini.extractive summarization of long documents by combining global and local context

[2].焦李成,杨淑媛等.神经网络七十年:回顾与展望.计算机学报,2016

[3].侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述.中文信息学报,2019

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)1月11日至2月15日分析课题,查找资料。

(2)2月16日至2月28日完成需求分析。

(3)3月01日至3月16日完成开题报告。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版