1. 研究目的与意义、国内外研究现状(文献综述)
1. 研究意义 命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。
从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。
命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
1)研究目标 自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空问非常庞大,必须借助规则知识提前进行过滤修剪处理。
如植物本体(专有),生长时期(固定语序格式)以及其他(带介词短语,语序格式可不同)。
针对具有不同特征的实体,需要采用不同方法、特征模板抽取,以提高识别准确率。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
1)研究方法 a.基于规则方法a)利用已有的语义工具进行抽取,例如植物本体po;b)建立正则表达式。
构造命名实体规则,分为外部规则和内部规则。
外部规则主要包括结合生长发育相关实体特点以及上下文语境。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
目前实体识别的研究主要集中在命名实体的识别, 命名实体识别研究主要包括人名识别、地名识别、机构名识别、时间和数值表达式识别等。
在国内,有关动植物实体识别的研究还相对比较少,而有关动植物的实体识别研究具有延伸拓展的空间。
所以本项目基于混合模式,选取植物生长发育时期这一方面进行研究。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
5. 研究计划与进展
2014/2~2014/3:收集用于训练语料的英文文献,完成部分基于规则的实体抽取;2014/3~2014/4:综合收集的语料,建立小型训练语料库以备实验;2014/4~2014/5:进行生长发育时期实体特征定义和特征模板选取;并按照需求修改开源Java软件,配置CRF工具包;
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
