全文总字数:2083字
1. 研究目的与意义、国内外研究现状(文献综述)
古白平行语料是指根据一定的方法收集整理的由古汉语与现代汉语的白话文语料对应构成的语言材料。同时机器翻译的发展又为我们处理卷帙浩繁的古代文献提供了便捷的条件和全新的思路。学界对于句子对齐技术的相关研究多集中在对齐长度单位、对齐模式和对齐模型三个方面,而基于古白平行语料的句子对齐研究几乎一片空白。主要参考文献为《句子对齐技术研究进展》等。
2. 研究的基本内容和问题
目标:建设完整的古白平行语料库、完成句子对齐算法的代码实现、对句子对齐算法进行优化;
内容:1 完成基于《春秋三传》《史记》《三国志》《汉书》《后汉书》《战国策》六部史书的古白平行语料库建设;
2 基于“1”进行实验;
3. 研究的方法与方案
研究方法:第四范式下的科学实验
技术路线:机器学习
实验方案:1平行语料库建设;2模型建设与调试优化;3数据整理
4. 研究创新点
研究特色
1.三层bp神经网络模型模型学习速度慢
5. 研究计划与进展
2019.3.29完成实验部分,拟在2019.4.10之前完成论文的撰写与校对。
本文采用三层bp神经网络模型模型模拟古文原文与现代汉语译文的方法,选择长度特征、对齐模式特征、共现汉字特征为特征值,结合句子长度和汉字信息,最终使用动态规划产生句子对齐。在实验中,召回率、精准率和f指标都取得了较为理想的成果,但是在算法的优化方面还需要很多努力。最后,设计一个完好的自动翻译系统就需要古代文学、现代汉语、历史学、以及计算机学科等多方面知识,有相当的难度。在句子对齐的技术层面上,在的技术已经足够成熟;语言学层面上,古白平行语料库建设并不是非常完善的;在研究方向上,模型的更新仍然是未来提升句子对齐性能的主要动力。而从社会的发展和当下的时代机遇的角度上,新时代对经典文献无疑是需要的,对于继承发扬中华民族传统文化和坚定新时代中华民族的“文化自信”有着莫大助益。
