1. 研究目的与意义、国内外研究现状(文献综述)
1、本课题的意义
随着信息技术和网络技术的不断进步与发展,计算机成为了人类生活必不可少的一种工具。由计算机智能地处理人类语言的技术,即自然语言处理(natural language processing,nlp)技术便应运而生。词性标注(part-of-speech tagging)作为其中较为基础的一种预处理程序,对后续的工作和课题研究都起着至关重要的作用。
词性自动标注在现代汉语领域已经获得了相应的研究成果,但在古汉语领域的研究却极少。此外,古汉语学科体系的发展又迫切需要现代信息技术的参与,需要对古文典籍进行信息处理以此辅助该学科专家来进行学术研究。因此,本课题需要充分挖掘中文信息处理在先秦汉英典籍中的应用价值,开发有助于先秦平行语料研究的词性自动标注模型。
2. 研究的基本内容和问题
1、研究的目标
得到简单特征模板、组合特征模板下的词性自动标注模型,计算基于组合特征模板的词性标注模型调和平均值f,并应用于其他先秦汉英典籍的词性自动标注研究。
2、研究内容
3. 研究的方法与方案
1、研究方法
(1)文献调研法
对国内外的相关研究成果进行调查整理并对中英文词性标注做出一定了解,为本研究奠定基础。
4. 研究创新点
本研究的优点在于对25种先秦语料进行了试验,涵盖的语料量较为丰富。南京师范大学语言科技研究所构建的先秦典籍语料库是国内已建成的最大规模的语料库。本课题所选用的先秦典籍共25种即来自南京师范大学语言科技研究所构建的先秦典籍语料库。
主要采用基于统计的方法,对先秦汉英典籍进行详细的考察,统计不同位置的词性用法、词长及读音等确定了组合特征模板,从而有利于基于条件随机场的模型训练。
5. 研究计划与进展
1、第一阶段,对国内外的相关研究成果进行文献调研。
2、第二阶段,确定先秦汉英典籍典籍语料来源及词性标签。
3、第三阶段,组合特征模板的确定。
