全文总字数:3845字
1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题的意义
本课题的研究对象是命名实体识别任务中的人名实体识别。命名实体识别是自然语言处理中一个非常基础的工作,是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,也是解决文本数据过载问题的基础工作。人名实体是文本数据中涉及的常见的实体类别,探究不同模型在人名实体识别任务上的表现十分重要且是序列标注中的代表性任务。
(二)国内外研究进展及应用前景
2. 研究的基本内容和问题
(一)研究目标
随着信息技术的发展,语料规模不断扩大,数据稀疏问题、垃圾语料问题随之而来。如何从大规模、非结构化的文本中快速有效地获得所需的信息和知识己经成为自然语言研究的热点。序列标注模型是进行信息抽取的常用模型,本研究以抽取文本中的人名实体为例,对比了不同的序列标注模型的效果与时间性能。
(二)研究内容
3. 研究的方法与方案
(一)研究方法
本研究以抽取文本中的人名实体为例,对比了不同的序列标注模型的效果与时间性能,这些序列标注模型包括隐马尔可夫模型、条件随机场模型、长短时记忆神经网络模型、卷积神经网络模型;此外还在字级与分词上进行模型性能对比,直接实现端到端的实现。
(二)技术路线
4. 研究创新点
(1)实验在效果与性能两方面综合分析了各个模型的实现特点。(2)进行大量严格的交叉实验验证,使得对比结果更加严谨与具有参考价值。(3)在使用神经网络模型时,将语料语言学特点融入进去,能提高实验的准确率。(4)以人名实体识别任务为例,实验结论可以推广,在其他任务上也具有借鉴价值。
5. 研究计划与进展
(一)前期准备工作:人民日报语料的准备,相关命名实体识别算法的了解等。
(二)开展工作:(1)2019年3月1日-2019年3月20日,确定研究课题。(2)2019年3月20日-2019年3月25日,进行前期准备工作,获取人民日报语料,对语料进行统计分析,制定相关的处理规划,并完成开题报告。(3)2019年3月25日-2019年4月01日查找相关技术论文,理解技术原理。(4)2019年4月01日-2019年4月30日,实现代码,完成论文实验部分。2019年4月20日中期汇报。(5)2019年5月01日-2019年5月7日,撰写论文初稿并提交指导老师,根据老师的意见对论文进行修改。(6)2019年5月7日-2019年5月15日,实验修改及毕业论文修改。(7)2018年5月15日-5月20日 毕业论文定稿。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。