基于神经网络的命名实体识别及关系抽取联合学习研究开题报告

 2021-11-21 04:11

1. 研究目的与意义(文献综述)

随着信息时代的到来,网络上的信息越来越呈现出指数形式爆发增长的态势,在这其中,文本信息占据了相当重要的组成部分,如何准确高效的获取知识成为亟待解决的问题。

在许多自然语言处理的高级任务,例如知识图谱构建、任务型对话机器人等综合应用过程中,信息抽取中的命名实体识别及其对应关系都有很重要的应用,也是其他下游工作的基础任务,因此找到提高实体及其关系识别的准确率的方法,避免冗余信息和误差累积以及尽可能的减少计算成本不仅对于任务本身有着极大的帮助,对于上层任务会有着效果的显著提升。

得益于计算能力的大幅提升和模型的改进,自然语言处理的很多领域都取得了突破性的进展。命名实体识别和关系抽取的研究方法可以分为两大类。第一类是流水线的方法,即先识别命名实体,然后根据识别到的实体进行关系抽取。第二类是通过构联合抽取模型进行命名实体识别与实体关系抽取,充分考虑命名实体与其关系的内在联系。从发展历程上看,主要经历了基于规则的方法、基于统计机器学习的方法、基于神经网络的方法的演进过程。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

命名实体识别和关系抽取的两类研究方法中,由于流水线方法将命名实体识别与实体关系抽取分割为两个独立的子任务,忽视了两者之间的内在联系,而且命名实体识别的结果将会直接影响到实体关系抽取的准确性。另外,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。

因此,本课题基本内容是研究命名实体识别和关系抽取的联合学习方法,通过调研和复现当前的几种联合学习神经网络模型,目标是分析他们的优缺点及适用性。

本课题的整体流程如图1所示。首先对输入句子进行bioes词性标注,然后将得到的三元组传入基于bilstm框架的端到端模型,从而实现命名实体识别与实体关系联合学习的效果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1) 2019年12月~~2020年2月28日,阅读相关的中英文参考资料,熟悉python3编程语言,学习tensorflow、pytorch等框架,完成外文翻译。

(2) 2020年3月1日-3月7日撰写研究计划,确定命名实体识别-关系抽取联合学习任务框图。下载nyt addin ne.ref.{275bda14-6b6f-40c3-a202-1734c7d8d3f3}[14]语料库,构建基本的命名实体关系三元组,熟悉数据存取的格式。

(3) 2020年3月8日-3月15日完成ner任务,熟悉标注规则bioes标注规则。使用keras搭建bilstm框架对语料库进行交叉验证,将crf接在lstm网络的输出结果后,让lstm负责在crf的特征限定下,依照新的loss function,学习出新的模型。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 郑立洲. 短文本信息抽取若干技术研究[d]: 中国科学技术大学,2016

[2] 庄成龙. 基于树核函数的中文实体语义关系抽取方法的研究[d]: 苏州大学,2009. 72

[3] 王敏. 基于多代理策略的中文实体关系抽取[d]: 大连理工大学,2011. 59

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。