1. 研究目的与意义、国内外研究现状(文献综述)
(一)研究意义命名实体识别是自然语言处理研究中比较重要的一环,它对分词、词性标注、句法分析、信息检索与机器翻译都起着重要作用。
在国内外很多组织机构也在研究命名实体识别的方法,包括机器学习方法(例,条件随机场)和深度学习方法(例,lstm),以使得识别效果更好。
随着科学技术和生产力的高速发展,各实验所或者机构对地名识别的效果有更大的要求。
2. 研究的基本内容和问题
(一)研究目标:基于已标注词性的人民日报语料,对语料中地名属性做相应的统计;其次使用条件随机场开源工具crf ,训练地名识别模型;对人民日报中省份和城市整体情况做了分析。
探索了边界词对地名自动识别的作用,归纳了42年来人民日报中地名的分布规律,给地名识别提供了一种思路。
(二)研究内容: 基于已标注词性的人民日报语料,对语料中地名长度分布、地名构成字分布、地名左右边界词分布及其特征做了相应的统计;其次使用条件随机场开源工具crf ,根据预先设计的地名识别模板与选取的边界词,训练并测试地名识别模型;最终对人民日报中地名整体情况做了分析,包括人民日报中出现最多的省份和城市。
3. 研究的方法与方案
(一) 研究方法:以人民日报语料为数据源,共42年的语料,使用统计方法统计地名,使用条件随机场建立地名识别模型。
(二) 技术路线见附件(三) 实验方案:1.地名属性统计:在该阶段,编写python程序提取语料中地名,然后对提取的地名统计不同的属性,如地名长度分布、地名构成字分布、地名左右边界词分布。
2.地名识别模型:在这一阶段,根据上一步统计并选择的边界词,结合相应的词性,预处理人民日报语料,使其成为列标注状态。
4. 研究创新点
在以前的研究中,很少有学者从边界词的角度进行命名实体识别,所以该研究对命名实体研究提供也种方法或思路,并且该方法也可以作为命名实体识别的一个特征,从而使得命名实体的效果有一定的提高。
5. 研究计划与进展
(一)前期准备工作:学习python编程语言,并了解该语言下的正则表达式;其次需要了解crf 的模板的设计;获取中国省份与城市名称。
(二)开展工作:(1) 2017年11月1日- 11月15日 编写python程序,提取地名及边界词,并根据统计结果统计地名长度分布、地名构成字分布、地名左右边界词分布。
(2) 2017年11月16日-11月30日根据先前统计的地名,结合现实地名,将二者进行匹配,并统计省份与城市出现的频次。
