基于复杂特征的《黄帝内经》自动分词研究开题报告

 2023-01-06 04:01

1. 研究目的与意义

1.论文研究内容本次研究以《黄帝内经》为样本,借助条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法的自动分词技术进行分析,具体从以下几个方面展开:(1)条件随机场模型(2)crfs分词原理(3)基于crfs的分词实验(4)语料来源及考察(5)实验结果及分析(6)小结及待研究的问题2.论文研究意义自动分词作为中文信息处理的基础课题之一,在近三十年来取得了长足进步,多个成熟的自动分词系统被设计和使用[1]。

实际上,一个较为成熟的自动分词系统既可以为继续深入研究语言提供基础和数据支持,也是构建句法分析、机器翻译、文献检索等复杂系统的必要前提。

从这层意义上来看,自动分词对于中医文献信息处理有重要作用。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 文献综述

基于统计模型的自动分词方法,或称基于概率的自动分词方法,是建立一个自动分词的统计模型,通过对已经标注好的语料进行机器学习,以获取统计模型的各组参数,然后从各种可能的词串中挑选概率最高的词串作为输出结果。

[3]利用复杂特征的自动分词方法是一种从中医文献自身特点出发、充分考虑古汉语信息处理特殊性的分词方法,这种分词方法无需事先制作词表,或制作训练语料,通用性高,可以推广到其他中医文献的自动分词任务。

[4]1. 国外研究现状2003年7月sighan在日本札幌举办了首届国际中文分词评测bakeoff[5]。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 设计方案和技术路线

1.设计方案(1) 以《黄帝内经》为样本,借助件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术,对《黄帝内经》进行研究;(2) 基于条件随机场统计模型的自动分词方法(3) 利用四词位《黄帝内经》词汇分词标注2.技术路线 条件随机场模型 基于统计模型分析 CRF分词原理《黄帝内经》自动分词方法研究基于四词位方法 复杂特征自动分词模板

4. 工作计划

2022年7月:确定选题;2022年9月:资料查阅,编写开题报告,开题报告答辩;2022年10-11月:进行数据处理,完成初稿;2022年11-12月:完善方法,对初稿进行修改并完成定稿;2022年12月:提交论文并进行预答辩;

5. 难点与创新点

特色:利用四词位《黄帝内经》词汇分词标注注疏方法,最大特色就在于无需人工事先标注,不需要任何训练语料;同时,利用相关文献来处理目标文献的分词思路具有通用性,完全可以移植到其他中医文献的自动分词乃至各种信息处理的任务中去;统计模型的本意,是从较小规模的训练语料中学习模型参数,用学到的模型来自动处理较大规模的、与训练语料相似的其余语料。

但这与《黄帝内经》语料规模较小、同质性低的特点相冲突。

创新:分词方法在中医文献中的应用是是首次,本次研究从《黄帝内经》着手,在此次方法实践过程中所得出的经验可借鉴到今后中医文献的研究中。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。