基于词典的实体链接系统设计与实现文献综述

 2023-08-04 12:02:14

文献综述(或调研报告):

1、Falcon方法

在用短文本来挑战NLP任务时,由于这些短文本不能提供足够的上下文或者为部分畸形,所以针对这种情况,提出了一种新的Falcon方法,它用英语形态学的一些基本原理来执行短文本的实体链接,并利用合并各种知识来源的实体和关系而创建扩展指示图。

这篇论文首先列举了现有的一些技术,分析了他们在处理短文本方面存在的一些技术局限以及一些问题。比如资本化、隐式/显示实体、实体标签中单词数量、问题的歧义性、问题的隐藏关系、关系标签的派生词等对EL以及RL工具的影响,在现有技术局限性的基础上,引出了一种新的方法。

Falcon方法将短文本中的表面形式映射为KG实体中的文本表现形式。首先通过合并来自各种知识源的信息扩展成一个知识图,然后先对短文本进行POS标记,用于识别句子中的动词以及名词短语,标记后下一个模块从输入语句创建标记以删除停用词,接着从最短的标记开始,用于在知识图中搜索关联的候选者,在扩展的KG关系中搜索潜在关系候选者的标记并且获得所有可能的关系候选者,会有多个候选者,因此会生成一个候选人列表,然后对生成的这些候选者进行一个排名,来选出一个最佳候选者。这就是Faclon方法的基本步骤,如果对于潜在实体对象,知识库中没有任何三元组则将标记进行拆分。

很少有Falcon失败的案例,在Gerbil中集成的最新系统中,Falcon的性能明显优于基线,并且对于关系链接也有类似的观察结果,其中Faclon的性能大约是所有数据集上次竞争对手的俩倍。因此可见这种方法对于短文本的挑战表现是非常出色的。

图1:Falcon方法实现实体链接的过程

此次研究的主要是Falcon方法,这是一种将短文本中的命名实体(EL)和关系(RL)链接到相应的Knowledge Graph实体的方法。Falcon的方法采用了两个新颖的概念。首先为如何将包含多个互补语义和语言资源的融合KG用作背景知识。其次,它设计了一种基于语言理解的方法来处理文本,该方法利用扩展的背景KG进行EL / RL。在进行的综合经验评估中,该方法在几个基准上均优于最新技术。与基于机器学习的短文本方法相比,Falcon具有可观的收益,它不需要培训数据,并且很容易适应新的领域。

2、EARL

通常,所有实体和关系都需要正确链接到知识图,以便生成正确的形式查询 并成功回答用户的问题。因此,至关重要的是要高精度地执行链接过程,而这正是当前 SQA 系统被广泛采用的主要瓶颈。在大多数实体链接系统中,通过查看输入文本中存在的其他实体来执行歧义消除。但是在短文本片段的情况下,用于消除歧义的其他实体的数量并不高。因此有必要结合输入问题考虑实体和关系候选者,以最大程度地利用候选者选择过程的证据。为了实现这一点,提出了一种新方法 EARL(实体和关系链接器),这是一个将问题中的实体和关系共同链接到知识图的系统。EARL将实体链接和关系链接视为单个任务,旨在减少由相关步骤引起的错误。更具体地说,EARL 使用知识图共同消除实体和关系的歧义,它通过观察围绕实体的关系来获得实体歧义的上下文。同样,它通过查看周围的实体来获得消除关系歧义的上下文。该系统支持在复杂问题中出现的多个实体和关系。EARL 实施两种不同的解决方案策略:第一种策略是将联合实体和关系链接任务形式化,作为广义旅行推销员问题(GTSP)的实例,由于这个问题是NP难题,因此本文采用了近似的GTSP求解器。第二种策略使用机器学习,以利用知识图中节点之间的连接密度。它依靠三个基本特征和重新排序步骤来预测实体和关系。本文比较这些策略,并在具有5000个问题的数据集上对其进行评估。两种策略都大大优于当前用于实体和关系链接的最新方法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。