基于统计和语义分析的术语抽取模块实现文献综述

 2022-10-26 04:10

文献综述(或调研报告):

术语这个概念本身,不论是单纯语言学上还是从计算的角度都还不够清晰。因此,只能给出一个有效的一般定义,“特定领域概念的语言表示形式”[7],或者说通过语言或文字来表达或限定专业概念的约定性语言符号。术语集中体现和负载了一个学科领域的核心知识,术语的变化在一定程度上反映了一个学科领域的发展变化[3]。因此探究术语更深层次的含义,定义相关指标以明确详尽地表征术语,以及如何在一个运行中系统里有效地运用这些指标依旧是计算语言学上地核心问题。Kageur 在[9]中提出了从语言维度上分析统计术语地两种指标:

  • Unithood:表示词汇组合搭配地强度和稳定性
  • Termhood:表示语言单位和特定领域概念的相关程度

本文中笔者私自将其翻译为组合强度(Unithood)和术语强度(Termhood)。根据定义,组合强度用于衡量表征由复合词,惯用表达和复杂术语等具有强关联性的单词组成的复杂语言单位。然而作为一种关联度量度,组合强度只对多词术语有重要意义,因此不能用于评估单词术语。与之相反,术语强度是术语的特有特征,不论单词术语还是复杂术语都有效。

那么如何在实际操作中使用这两种统计指标呢。目前,在大多数统计方法中使用到的统计量大都针对术语的组合强度,例如:互信息(MI),对数似然比(log-likelyhood),左右熵等,都是用于统计属于内部词语的结合度,然后按照组合强度的值进行排序,或者直接设定某个阈值进行过滤。在这种情况下抽取出来的短语从严格意义上来说并不能体现术语的术语强度。不过文献[5]中使用基于TFIDF方法来抽取专业词汇,除了专业领域的语料外(前景语料),还使用了另一种专业的语料(背景语料),统计两个语料中术语的词频对比变化作为衡量术语术语强度的标准。然而这种计算方法过分依赖于使用的背景语料,如果两个语料库的专业交叉性不大,则对其前景语料中高频的普通词汇识别能力不够。因此[2]进一步提出根据语言规则和停用词表抽取得到词串词表,统计各词串的词频,设定阈值筛选得到候选术语,再利用候选术语在语料中的词频分布为指标计算术语强度,进而以此为依据排序构成最终的术语列表。以这种方式围绕术语强度完成术语抽取工作。

另一方面,在许多统计方法或者统计规则结合的抽取方法中都提及了一个统计学模型:条件随机场(Conditional Random Field, CRF)模型。他是一种基于统计的序列标记识别模型,它由John Laferty等人首次提出[10],用于标记和分割序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,同时,由于CRF计算全局最优输出节点的条件概率,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置的问题。因此,CRF可以更好地拟合真实世界的数据。

[3]中将术语识别问题定义成一个序列标注问题,使用条件随机场模型对经过词性标注预处理的语料处理得到候选术语表,后续再通过实现制定的语言规则对候选术语二次筛选得到最后抽取结果术语表。同时文章中还提出了一种通用的术语抽取结果衡量标准,即命名实体识别中普遍使用的准确率(P),召回率(R)和F值(F),有如下定义:

  • 准确率(P)=
  • 召回率(R)=
  • F-值(F)=

其中,beta;是准确率P和召回率R的重要性的加权系数,如果把beta;为1,则意味着将准确率和召回率同等看待。实际应用中,通过计算每一个阶段的处理结果的这三项指标检查每阶段术语抽取的结果,相应的调整方法参数以不断提高系统的性能。文章中,刘豹等人在预处理阶段首先使用基于序列标注比较通用的BIEO标记对分词语料进行序列标注,策略则按照事先开发的基于规则的系统;然后对预标注后的语料人工校对,值得关注的是只对错误标注的BIEO标记进行改正,并不对分词错误进行处理。在抽取阶段采用上述根据条件随机场模型开发的科技术语标注识别器,并在最后通过定义规则和引入术语用字表和停用词表对识别器标注的候选术语进行筛选和校正。在迭代式的系统修正后,最终抽取结果F值达到84.4%。

同样是基于统计和规则,[1]更深入探究了对条件随机场模型的使用及算法优化。文章首先给出了新的概念:

  • 已登录术语(iv):训练预料中已经出现的术语
  • 未登录术语(oov):训练预料中没有出现而测试预料出现的术语

此外,经过杂质过滤后的5-best结果中,没有出现在已登录术语词表的字符串,称为候选未登录术语。文章指出利用条件随机场进行术语抽取,大多只利用给出的1-best结果[3,6],很少考虑n-best结果。尽管1-best结果具有很高的可信度,但对于部分未登录术语,由于其平均边缘概率较低或者所在标注序列的整体标注概率较低,未登录术语多出现在5-best以内,因而只采用1-best结果的术语抽取最终召回率存在固定损失。在应用5-best结果时仍有几点需要注意:a.5-best结果中含有较多的杂质,解决办法为利用候选字符串平均边缘概率设定阈值过滤杂质;b.iv和oov在5-best中边缘概率和分布差别较大,需要在处理时给予不同的分值;c.CRF给出的1-best结果可信度要明显高于其他best结果,所以对1-best中的候选术语和n-best(ngt;2)中的候选术语要采取不同的抽取机制。得到相应术语集后再根据规则进行后处理获得最终抽取结果。综上可以在一定程度上完成对通用CRF模型抽取算法的优化,结果证明在测试预料中oov比重较大的情况下,该算法能够获得较高F值。

相比以基于CRF为主的统计和规则结合的抽取方法,单纯基于统计的术语抽取方法具有更多的衡量标准选择。周亮等人在分析针对组合强度(unithood)和术语强度(termhood)两种术语统计标准后,推出利用候选术语在语料中的词频分布变化作为指标计算术语强度的策略,并以此排序筛选得到最终的术语列表[2]。张锋等则主要针对预料中术语的组合强度,利用互信息(MI)方法对两字新词的抽取表现较好的特点,集中计算术语在预料中的组合强度以抽出候选术语。值得一体的是上述两组在做预处理时都采用中科院计算所的ICTCLAS 词法分析系统进行词法分析和语义标注,并取得较好的效果。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。