基于古白平行语料的词性标注研究开题报告

 2022-01-16 19:35:01

全文总字数:6159字

1. 研究目的与意义、国内外研究现状(文献综述)

一、课题意义我们现如今使用的语言是经过一代代的发展演化而来的,虽然在字、词汇、语法以及修辞诸方面都有很大不同,但和古代语言本质上属于一种语言[1]。

古代汉语是我们中华民族智慧的体现,是中国传统文化的传承。

了解古文,能使我们真实感受到中国的美丽气质。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

我们现如今使用的汉语是在古代汉语的基础上传承和发展起来的,本质上同属于一种语言。但是,现代汉语和古代汉语在字、词汇、语法以及修辞诸方面都有很大不同,这给我们查找、学习古代文献资料、古代书籍带来了诸多不便。如果能开发一个这样的系统,它能对所阅读的古文中的每个字、词汇给出合理的解释,进一步能够将整个句子乃至整篇文章翻译成具有相同意义的现代汉语的语句或文章,将对于我们了解历史、学习优秀传统文化、继承古人学术成就有重要的意义。而对古今汉语中的词汇进行词性标注,是构建古白文翻译系统必不可少的一步。本文将基于BiLSTM和BiLSTM-CRF模型对“二十四史”中《史记》、《汉书》、《后汉书》、《三国志》建立古文和白话文词性标注模型。此词性标注模型可以应用于先秦类似语料的词性标注工作, 有效的减少人工标注的工作量, 加快语料库的建设。

3. 研究的方法与方案

对测试语料的处理:

首先使用爬虫技术从古诗文网将所需语料爬取下来,并对语料进行清洗,构建先秦典籍语料库。然后按照典籍中的“:。!?;”这五种标点符号为标记人工来界定一个句子并根据这个句子的内容,找到这个句子对应的白话汉语。然后,将段落语料库转换成句子对齐语料库,接着对每篇语料以句子为单位划分,句子与句子之间用空行间隔。最后,将每句话处理成每个字占一行的格式使之成为bilstm模型和bilstm-crf模型可识别的形式。

模型的构建:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

构建了一个集分词和词性标注一体化的模型,为构建古白翻译系统提供了基础。

5. 研究计划与进展

中期报告之前将测试语料按照模型可识别的模式整理好,并建立语料库。

中期报告之后,利用已有语料库训练模型并测试语料,验证模型的准确率和召回率。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付