基于统计机器学习的命名实体识别技术研究文献综述

 2022-11-08 14:48:34

文 献 综 述

一、研究背景

命名实体识别(NER)的主要任务是识别出文本中的人名、地名、机构名等专有名称和有意义的时间、日期等数量短语并加以归类。命名实体识别是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于语法分析中未登录词识别的范畴,命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。

因此,开发高效的命名实体识别技术,将有助于提升现有自然语言处理任务的性能表现,对用于解决自然语言处理各项任务的系统、算法有着极其重要的现实意义。

二、国内外研究情况

1.国内外研究现状

国外对于英文命名实体识别的研究开始比较早。1991年Rau在第7届IEEE人工智能应用会议上发表了“抽取和识别公司名称”的有关研究文章,首次描述了抽取和识别公司名称的系统,该系统主要采用启发式算法和手工编写规则的方法。1996年,命名实体评测作为信息抽取的一个子任务被引入MUC-6,在其后的MUC-7的MET-2以及IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列国际会议中,命名实体识别都被作为其中的一项指定任务。

最早的命名实体识别起源于西方语言,其方法多采用手工构造有限状态机的方法,即基于规则的方法。比较典型的用于英文的命名实体识别的系统有谢菲尔德大学的LaSIE-Ⅱ系统、FACILE系统和IsoQuest系统等。这些系统都参加了MUC-7测评,它主要是在识别过程中加入词法规则、语法规则甚至语义规则来提高识别的质量。

而在基于统计的方法方面,Sittichai Jiampojamam等人运用N-gram模型对生物医学实体中病理名等进行识别。JD Buger等人将隐马尔可夫模型用于荷兰语的命名实体识别任务中。Borthwich最早将最大熵模型方法引入英文的命名实体识别的问题中。接着,Bender和Curran等将基于最大熵模型的命名实体识别系统参加了CoNLL-2003测评,取得很好的效果。Bechet采用了基于决策树模型的方法识别专有名词,系统可以从名词短语包括专有名词的集合中选择最容易的特征,然后利用它学习,最后分类未知的专有名词。McCallum等将条件随机场模型用于命名实体识别,并参加了CoNLL-2003测评。

目前英文的命名实体识别达到了很好的应用效果,根据MUC以及ACE的评测结果,测试的准确率、召回率、F1值大多可达到90%左右。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版