1. 研究目的与意义、国内外研究现状(文献综述)
1、本课题的意义自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,主要研究人与计算机之间使用自然进行有效通信的理论和方法。
而命名实体识别又是自然语言处理中的一个重要研究方向。
其主要任务是研究如何从大量数据中准确、高效地获取有价值的信息。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容和问题
1、研究目标收集《汉语大词典》全部引证内容,对其引证信息进行内部分析研究引证文本内部存在的命名实体,利用crf条件随机场模型对其进行训练、测试得到可以具有实用价值的模型。
对引证信息外部数据进行处理,分析其主要来源,朝代、作者、作品等具体分布情况,为汉语语言研究提供帮助。
2、研究内容 首先,综述引文分析、命名实体识别的基本概况,阐述引文分析研究的意义和其发展历程,并对命名实体识别的发展历史、研究现状、应用领域以及常用方法进行了描述。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的方法与方案
1、研究方法(1)文献调研法通过文献检索、阅读、综合分析对国内外的相关研究成果进行调查整理,发现现阶段语料库研究的焦点及难点所在,建立本文研究的视角。
选择合理的语料库构建方法和引证知识来源的确认,为本研究奠定理论基础,提供实际操作意见。
(2)实验法 实验是发现、确认事物之间的因果联系的有效工具和必要途径。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
1、使用正则表达式构建基于规则的数据抽取处理方法,对标注好的数据进行抽取。
2、使用十折交叉检验方法避免CRF试验中可能存在的偶然性实验误差,确保得到的数据模型的一般性。
5. 研究计划与进展
1、第一阶段,对国内外的相关研究成果进行文献调研。
2、第二阶段,利用python编程语言对已有数据进行预处理,获得符合随后研究可用的数据格式。
3、第三阶段,对搜集数据进行整理、量化、统计及分析。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
