论文总字数:23333字
摘 要
在信息爆炸式增长的当今社会,从众多冗杂信息中提取关键信息已然成为一个重要研究领域。本文所研究的命名实体则是人们认识信息的基本单位之一,其中包括地名、人名、时间等基本要素,因此对它的研究将会大大有益于信息的提取和处理。近年来国家863计划中提出了“高考机器人”计划,旨在让其与考生同做高考试卷并给出解答,因此面向考试文本的命名实体识别研究尤为重要。本次实验重点探索了中文文本中的时间和地点的实体识别,采用了感知器-集束搜索解码器算法,该算法是一种广度优先和局部最优思想结合的训练方法,适用于数据较大或有较高时间效率要求的系统。实验通过设置特征模板来提取词本身的特征以及上下文特征,根据模板对人民日报标注语料库进行权重值训练,得出训练模型,最后利用模型预测未标注的人民日报语料及高考地理文本,并对测试结果作了F值评估,评估显示本文的模型在封闭测试和开放测试中都有着较优秀的表现。本文探索了命名实体识别在机器学习领域的方法,为今后对其的进一步研究作了基础的铺垫。
关键词:命名实体识别、感知机、集束搜索、人民日报语料库
Abstract
In today's society, where information is exploding, it is an important research area to extract key information from numerous redundant information. The naming entity studied in this paper is one of the basic units of people's understanding of information, including the basic elements such as place names, people’s names and time, so the research on it will be of great benefit to the extraction and processing of information. In recent years, the National 863 Plan put forward the "college entrance examination robot" program, designed to allow the robot and candidates to do college entrance examination papers and give answers, so the examination text for the naming entity recognition research is particularly important.This algorithm focuses on the identification of time and place in Chinese text, and uses a perceptron algorithm and beam-search decoder algorithm, which is a training method of breadth search and local optimal thinking. It is suitable for large data or systems with higher time efficiency requirements. In this paper, the characteristics of the word itself and the context characteristics are extracted by the feature template, and the weighting training is carried out according to the template to the corpus of the People's Daily.,Then the training model is obtained. Finally, the model is used to predict the unpublished people's daily corpus and the college entrance examination paper. The results are evaluated by F-Score, and the evaluation shows that the model has a better performance in both closed and open tests. This paper explores the method of naming entity recognition in machine learning, and paves the way for further research in the future.
KEY WORDS:named entity recognition、perceptron algorithm、beam-search decoder、 corpus of the People's Daily
目 录
摘 要 I
Abstract I
ξ第一章.前言 1
1.1 研究背景与意义 1
1.2 研究历史概述 1
1.3 技术路线概述 2
1.3.1 主流算法介绍 2
1.3.2 本文采用的算法 3
ξ第二章.感知器算法及集束解码 4
2.1 感知器算法的介绍 4
2.1.1 感知器的结构 4
2.1.2 感知器算法过程 5
2.2 集束搜索解码器 6
2.3 特征模板 7
2.3.1 特征模板的介绍 7
2.3.2 特征模板的制定 7
2.4 数据预处理 8
2.4.1 人民日报语料库预处理 8
2.4.2 高考地理试卷预处理 9
ξ第三章.算法实现及优化 10
3.1 环境配置 10
3.2 算法实现 10
3.3 算法优化 11
3.3.1 懒惰的权值更新策略 11
3.3.2 平均权值策略 11
ξ第四章.测试结果 13
4.1 评估标准 13
4.2 循环次数确定 13
4.3 时间效率对比 14
4.2 封闭测试 14
4.3 开放测试 15
ξ第五章.总结与展望 18
5.1 总结与分析 18
5.2 对未来的展望 18
致 谢 20
参考文献 21
ξ第一章.前言
1.1 研究背景与意义
在科技日新月异的当今社会,信息量呈爆炸式增长,这也造成了其越来越复杂和冗余的特点,每个领域的发展都不得不面临如何处理这些庞大的信息量这个难题,而如何从中提取本领域所需的关键信息则成为了研究的重中之重。信息的载体大多数情况下依赖于文本,从文本中进行信息抽取是近年来的研究焦点,这也就是自然语言处理所要研究的重要领域。早年,信息的处理只能依靠人工定位和计算,而随着计算机和互联网技术的逐渐普及,将这项繁杂的工作交给计算机来做则成为了不二选择。在信息提取的工作中,命名实体是人们认识信息的基本单位之一,因此本文的研究重点就是自然语言处理领域中的命名实体识别。
命名实体识别(Named Entity Recognition)是指从文本中提取出有特定含义的实体,命名实体识别主要包括三大类:实体类、时间类和数字类,也可分为七小类:人名、地名、机构名、时间、日期、货币、百分比等。在自然语言处理中,命名实体的识别好坏对机器翻译、信息抽取、自动客服等领域的发展都有重大的影响,因此许多年来NLP工作者们都在前仆后继地深入探究这个课题。举例来说,当今电商发展迅速,客户的咨询需求量也非常庞大,有时人工客服满足不了客户的需求,机器客服也就应运而生。机器客服要用到的一个重要技术就是从客户的提问或要求中提取关键实体,例如:“明天北京能发货吗?”这句话,机器客服要从中提取出几个关键词,如时间类:明天,地名类:北京,动词类:发货,提取实体信息和关键词为后续的句意理解和回复做了基础铺垫。近年来,国家863计划中也提出了一项名为“高考机器人”的计划,又名“超脑计划”,旨在利用自然语言处理技术使得机器人能够阅读高考试题并进行解答。“高考机器人”能够识别理解题目的其中一个重要技术也在于命名实体识别,因此本文在最后进行测试时也将会利用高考地理试卷的文本进行开放测试,以检验其在面对考试文本时的效果。
剩余内容已隐藏,请支付后下载全文,论文总字数:23333字
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。