引入参考文献信息的学术论文关键词自动抽取研究
1 引言
关键词是表达文档关键性内容的最小单位,提供了高度总结性的信息[1]。关键词自动抽取是一种抽取具有重要性且能反映文档主题的词或短语的自动化技术[2]。随着计算机技术的快速发展,信息过载现象愈加明显,爆炸式增长的数据已超过人类的接收能力,而作为表达文档关键性内容最小单位的关键词有助于快速了解大量信息,因此,自动对文本信息进行关键词抽取的需求不断增加。目前,关键词自动抽取已在信息检索[3,4]、文本分类[5,6]等许多领域得到广泛的应用。就学术论文而言,关键词不仅提供论文的核心信息,帮助科研人员快速了解某一领域内容;而且便于科研人员进行论文检索,迅速获取目标论文。然而,在现有的学术论文中,存在有些论文作者没有给出关键词、关键词数目过少以致无法充分表达文章内容以及关键词抽取准确率不高等问题[7]。如图1给出了一篇学术论文的标题、摘要和关键词信息,所给出的关键词只有两个,并都出现在标题中,可以看出所给关键词无法充分体现文章主要内容。
图1 某一学术论文中标题、摘要和关键词内容[1]
现有面向学术论文的关键词自动抽取的研究主要使用基于监督的关键词抽取方法和无监督的关键词抽取方法。基于无监督的关键词抽取方法,如TF-IDF[8]和TextRank[9]等,不依赖于标注语料,可直接从文本中抽取关键词,但性能较低。基于监督的关键词抽取方法,如朴素贝叶斯[10]、支持向量模型SVM[11]、条件随机场[13,14]等,需标注语料以进行模型的训练,其性能较优于无监督方法。随着深度学习技术的发展,神经网络模型已被证明在关键词抽取任务中能够达到较好的性能[14]。因此,本文选择基于深度学习的监督模型进行学术论文关键词抽取。
标题和摘要代表了学术论文的主题的、核心的内容,同时,考虑到全文本信息量很大,基于全文本的深度学习需耗费大量的计算空间,处理成本较高,抽取效率低。因此,本文基于学术论文的标题和摘要进行关键词抽取。但仅仅通过学术论文的标题和摘要进行关键词提取,可能存在数据稀疏的问题;考虑到参考文献是学术论文的重要组成部分,并为论文提供了研究背景和理论依据,来增强论文的说服力[15],由此来看,参考文献与对应论文的研究内容有很大的相关性。另外,参考文献含有标题、作者、发表年份等信息,可能包含了摘要和标题中没有的信息,可以用作丰富模型学习的信息。因此,本文使用参考文献辅助标题和摘要进行关键词抽取。
本文设计一种关键词抽取框架。该框架可将参考文献引入关键词任务,主要包括两个部分:(1)关键词抽取模块和(2)参考文献编码器。参考文献编码器将参考文献转变为机器可处理的形式,然后输出编码结果并传入关键词抽取模块。关键词抽取模块将关键词抽取任务视为序列标注任务,主要从输入的标题和摘要中抽取关键词。另外,传入的参考文献编码结果可用于辅助关键词抽取过程。与此同时,通过与传统关键词自动抽取算法以及不加入参考文献信息的神经网络模型等方法的结果进行对比,从而揭示深度学习和参考文献信息是否可以提高关键词抽取的准确性。
2 相关研究现状
关键词自动抽取是文本自动化处理的基础与核心技术之一[16]。当前,关键词自动抽取方法主要分为有无监督和有监督两种,区别主要在于是否需要带标签的训练语料库。本章节将会分别对这两种关键词自动抽取方法的一些国内外相关研究进行简单概述。
2.1 基于无监督的关键词自动抽取方法
基于无监督的关键词自动抽取方法不需要人工标注的语料集,可通过对关键词排名的方式来实现[17]。目前,主要的实现方法有以下三种[18]:基于TF-IDF模型的关键词抽取、基于主题模型的关键词抽取和基于词图模型的关键词抽取。
基于TF-IDF模型的关键词抽取相对来说比较简单,TF-IDF是Salton在1988年提出的[8],也是近年计算词语权值方法中应用较多且效果比较良好的方法之一。其中,TF称为词频,表示词语i在文档中出现的次数;IDF称为逆文档频率,表示词语i区分文档的能力;以TF和IDF的乘积作为词语i的权值。该方法简单快速,但不够全面,忽略重要的词出现次数不多的情况以及词的位置、关联信息等语义特征。因此,许多国内外学者都不断提出改进方法。Besils等人引入IWF(Inverse Word Frequencies)来替代IDF,IWF表示语料中词语总数与某一文档中词语i出现的次数比值的对数,在一定程度上改善了TF-IDF算法中IDF忽略特征项在语料库分布情况的问题[19]。张瑾则在传统的TF-IDF方法上,加入位置权值和词跨度权值,以互联网中“十八届三中全会”为主题抽取的200篇新闻内容为测试的文本集,实验结果表明,改进的TF-IDF方法的性能优于传统的TF-IDF方法[2]。
