全文总字数:3640字
1. 研究目的与意义、国内外研究现状(文献综述)
课题意义
命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。在文本中,命名实体作为重要的信息元素,通常包含了该文本的主要信息。因此,准确地识别命名实体是正确理解文本内容的关键。
如今对于白话文命名实体识别技术已经蓬勃发展,各种理论在白话文实体识别中都扮演了重要的角色。中国的古代文化是中华名族的宝贵遗产,在古汉语实体识别方面的相关研究还不充分。随着计算机技术的发展,我们相信,是可以处理古汉语的。本文将运用条件随机场模型,对古汉语中的时间以及地点类命名实体进行识别。在已有的手工处理好的古白平行语料中进行测试,构建完整的训练语料库,对未处理的古文进行测试,给今后古文命名实体识别提供参考价值。
2. 研究的基本内容和问题
首先选取条件随机场模型对白话文和古文进行处理,得到训练模型,发现其中的准确率、召回率以及F值都高于85%,最后对新的古文语料进行命名实体实验,效果较好。该方法对于以及事先处理好的古文语料的命名实体抽取有有指导意义,为今后的古文命名实体抽取提供帮助。
问题在于,古汉语的时间跨度较大,各个年代的词语具有不同的意义。同使,当今汉语与古汉语不同,差别较大,我们的固有想法可能会影响实际结果。如何将这些差异最小化是亟待解决的。
3. 研究的方法与方案
研究方法:条件随机场模型
技术路线:python编程、自然语言处理、十字交折。
实践方案:手工进行文本的预处理,十字交折将文本进行进一步处理。在文本处理好之后,用编好的程序进行处理,根据给出的准确率与召回率判断处理结果。然后将试验好的结果,进行机器学习,对后面的文本进行分词,查看分词效果,找出更好的改进方案。
4. 研究创新点
特色:对古文本进行处理,利用白话文古文对比的判断方法。运用手工处理的文本进行测试,可以大大的提高准确率。先进行小文本处理,可以提高效率。在一定方面,利用前人探索好的方法,加以改进,可以的到更好的效果。
5. 研究计划与进展
研究计划:初期先确定要处理的文本,将文本进行预处理。接着将文本进行十字交折处理,制定规则,用条件随机场模型对文本进行处理。
预期进展:取得80%左右的准确率与召回率。
