1. 研究目的与意义
1.1 研究背景
随着数据化时代的到来,电子文档日益增长,越来越多的笔录文本信息在管理和检索上都存在一定的难度,想要查询和了解相关的案情信息需要花费大量的时间进行选择和阅读,这无疑会降低办事效率。而笔录文本的摘要单靠人工也是难于实现的,面对如此巨大的文本信息量,为了简单明了地向用户提供关于笔录文本的关键信息,有必要采用自动文摘技术;自动文摘是自然语言处理的一个分支,自动语言处理的目的是设计一种能分析、理解、收集人能理解的自然句子的算法或者软件,这样以便用计算机来代替人民进行自然语言处理工作,提高工作效率[1]。在上个世纪60年代,Luhn就进行了自动文摘方面的研究,研究主要是从基于统计特征[2]。到了70年代初,Charles P. Bourne等人通过词汇分布等因素来对文本进行分析[3]。Jan Helbich在关键词选择中提出了索引应用等[4]。90年代以后,以Carbonell为代表提出的基于句子抽取按序输出的自动文摘模式逐渐被认可[5]。从60年代到90年代,是自动文摘的发展初期,这个阶段主要是依靠于文本单元的浅层特征分析,比如词频统计、句内包含的关键词语数、指示性短语、句子位置等[6]。相对于这种抽取式的自动文摘,另一种便是基于理解的自动文摘。基于理解的自动文摘主要是利用人工智能等相关理论来对文本的语法语义进行处理,这种文摘比抽取式文摘更具逻辑性,相关度也会更高。但同时,这种文摘要对语法语义进行分析,这也导致了文摘所用的技术多而复杂。如语法知识获取技术[7],前向后向推理技术[8]等。这种文摘往往是针对领域的,所以还需要提供额外的领域知识库作为支撑。所以,在文摘摘要发展初期,由于计算机硬件条件,这种方法的发展受到了很大的限制。除了上述两种自动文摘的主要形式外,还有一些自动文摘技术。如基于结构框架的[9]。这种文摘方式有着针对性强,简洁明了,容易实现的特点,但是由于格式固定,而且因为对文本格式有要求,会导致文摘采集标注的数据不准确,这一弊端,使得这种形式的文摘大受限制;自动文摘研究已经持续了数十年[10],在近几年里,提出了许多算法和模型。如文献[11]提出了一种利用非负矩阵的自约束特性来改善通常特征向量包含负影响因子缺点的办法;文献[12]中提出利用模糊群的多样性混合模式来做自动文摘;文献[13]设计了一种新的语句相似度的计算方法来做自动文摘。由于对传统的相似度方法加以改进,这种新的方法能得到质量较高的文摘;[14]介绍了一种多文档自动文摘的方法;抽取式自动文摘方法是文本摘要早期主流的方法,抽取式自动文本摘要方法主要分为:基于统计和规则的文摘方法、基于图模型的文摘方法、基于主题的文摘方法、基于整数规划的文摘方法[15];同时,生成式文摘研究也一直是一个热门课题,在文本摘要发展的初期,受限于计算机硬件,但这也不能让研究者们忽略该摘要方法的优点,理想的生成式文本摘要系统应该是能理解所有文档内容并重新组织产生连贯的、简短的且能传达原文重要信息的摘要[16],大部分生成式自动文摘方法都是将生成过程分成两部分[17],一是利用无监督的文摘抽取方法和语言知识抽取原文中的关键元素,二是利用文本生成和语言学技术重写或释义抽取的元素产生简洁的摘要。中文自动文摘是开始于上个世纪80年代中期。那时在这个领域研究一般是基于表层统计和研究的。如文献[18,19]等等。到了90年代,提出了基于语义的分析和研究。如文献[20,21]。与此同时,关于中文的自动文摘系统也开始被开发出来。如1992年研制出来的MATASl2就是一种基于自然语言理解的文摘实验系统[22]。到了1994年,开发了HIT28631型自动摘录式的自动文摘系统[23],并在1998年完成了HIT28631I型系统。当前,关于中文自动文摘的也随着时代需求增加而得到很大的发展。如基于潜在语义索引和句子聚类的自动文摘[24], 基于条件随机场的中文自动文摘系统[25]等等。这些都是近年来中文自动文摘领域中新技术,新方法。
1.2 研究目的
自动文摘研究的目的是利用计算机自动从文本或者文本集合中抽取或生成能准确复述原文意思的短文,用户只需要阅读文摘结果就可以知道文档的主要信息。笔录文本的自动摘要技术是为了从笔录文本集合中获取案情的关键信息,省去了大量检索和阅读大篇幅笔录文本的时间,为我们提供一种快速检索笔录文本内容的方法,提高了阅读效率。
1.3 研究意义
信息量的快速增加让我们无法高效处理其中的有效信息,因此寻求于文摘系统可以让我们节省大量的信息处理时间,更重要的是文摘系统还可以移除那些无用的噪音信息,保留具有价值的有效信息。将文本摘要应用于笔录文本处理。将笔录的关键信息抽取出来,可以有效地缩短文档的检索时间,并且提高检索性能;另一方面,在类似案情的比对上,也会比传统方法更具有效性和时效性。
|
|
| |
| |
| |
| |
2. 研究内容和预期目标
2.1 研究内容:(1)研究笔录自动文本摘要的发展现状和可行性的分析。
(2)通过已有的数据源,实验分类方法、TEXTSUM等摘要方法方法在以笔录文本摘要方面的性能2.2预期目标:(1)实现笔录文本的自动摘要技术(2)实现笔录自动文摘系统
3. 研究的方法与步骤
3.1研究方法本系统通过实验的方法,通过完成设计笔录自动文摘技术,实现笔录文本的自动摘要,评估实验结果,并优化参数,完成课题研究。
3.2步骤(1)数据源预处理。
数据的预处理包括几个方面的处理工作:一、采用fasttext做分类处理,需要将数据处理成“content _label”格式,二、采用textsum等自动摘要方法做文本生成式摘要,需要将数据处理成“abstract=dpsabstract/s/p/d article=dpscontent/s/p/d publisher=afp ”等格式。
4. 参考文献
[1] 高超. 一种基于综合背景概念格的中文自动文摘方法[d]. 中南大学, 2011.
[2] mohamed a f,fuji r.ga,mr,ffnn,pnn and gmm based models forautomatic text summarization,computer speech and language 2009,23:1 26-1 44
[3] charles e bourne,donald f ford.a study of the statistics of lettersin english,information and control,1 961 words,4,(1):48—67
5. 计划与进度安排
5.本课题的具体进度安排
(1)1月11日至2月15日分析课题,查找资料。(2)2月16日至2月28日完成需求分析。(3)3月01日至3月16日完成开题报告。(4)3月17日至3月26日完成数据预处理。(5)3月27日至4月05日完成模型构建。(6)4月06日至4月13日完成多个模型的比对。(7)4月14日至4月28日完成模型评估。(8)5月01日至5月08日完成软件后期的修改、测试、运行。(9)5月09日至5月30日完成毕业论文的撰写。
最新文档
- 聚类算法在气象数据分析中的应用文献综述
- 企业办公自动化系统的设计与实现开题报告
- C波段双偏振雷达DSD反演文献综述
- C,N端组氨酸标签对细菌铁蛋白结构稳定性及其自组装的影响开题报告
- 基于Javaweb的旧书分享网站的设计与开发文献综述
- 盐胁迫对中山杉不同无性系抗氧化系统的影响开题报告
- 基于立体视觉的无人机自主避障方案文献综述
- 调频网点微观参数的量化表征开题报告
- 黑龙江降水异常的环流特征分析文献综述
- 克里斯托弗·诺兰电影视听语言研究开题报告
- 西藏近36年降水变化特征分析文献综述
- 医院附属绿地设计开题报告
- Ito型随机微分方程输出的数值仿真文献综述
联系我们
加微信咨询
加QQ咨询
服务时间:09:00-23:50(周一至周日)
