1. 研究目的与意义、国内外研究现状(文献综述)
(一)课题研究
中国历史典籍英译是中国传统文化走向世界的重要途径之一。这对于面向古汉语的自然语言处理、典籍英译研究和中国历史研究都具有重要意义。平行语料库内部蕴含着两种语言单词、短语、句子、段落、篇章等不同级别的对应关系,为跨语言信息处理技术提供了研究基础。本课题的语料选取《论语》典籍及其相应的英文译文:《论语》是儒家经典之一,是一部以记言为主的语录体散文集,主要以语录和对话文体的形式记录了孔子及其弟子的言行,集中体现了孔子的政治、审美、道德伦理和功利等价值思想。本课题着手构建基于词粒度的汉英典籍平行语料库。基于构建的双语对齐语料库,以及典籍《尚书》作为补充,进行实体识别的研究。根据标注规范进行手工实体标注,实体包括人名、时间、地名、事件,并基于条件随机场(crf)[1]工具包训练出人名、地名、时间实体的识别模型,通过计算p(准确率)r(召回率)f(调和平均值)值来对模型的识别效果进行测评与评估。最后根据已标注好的不同类别的实体,并通过定义其间的关系,利用neo4j图数据库[2]构造出基于典籍《论语》的双语知识图谱,实现可视化的分析与检索。
(二)国内外研究进展
2. 研究的基本内容和问题
3. 研究的方法与方案
在语料的收集方面,通过在中国哲学电子计划官网上对古文典籍的搜集、整理,选取了《论语》的原文资料,并完成相应的英文翻译整理工作,从而完成语料的收集。对汉英双语语料进行预处理,对汉语语料进行手工分词,进行汉英对齐标注工作,构建基于词粒度的汉英典籍平行语料库。基于构建的双语语料库,以及典籍《尚书》作为补充,根据标注规范进行手工实体标注(人名、时间、地名、事件),进而进行实体识别研究,并基于条件随机场(CRF)工具包训练出命名实体识别模型,并对模型的识别效果进行测评。最后根据不同的实体以及之间关系构造出基于《论语》的双语知识图谱,实现平行语料库的具体应用。本课题中知识图谱的建立选用Neo4j图数据库,Neo4j图数据库是以图的结构形式来存储数据的,它所存储的就是关联数据本身。因而能够直接表现数据的关联特性,其使用图的遍历算法来进行数据查询算法的设计,具有十分高效的查询性能。通过该可视化的图谱可以直观地了解、展示古代典籍中发生并记载的事件、以及与之有关的人物、地点等,有助于对古代历史文化的进一步研究与深入学习,并提供相关检索的平台与途径。因此,基于上述分析,本设计方案具有实际的操作可行性。
4. 研究创新点
选取的语料为古文典籍和其英文译文,双语平行语料库的建立有助于推广传统文化,促进传统文化输出与中外交流。为文学典籍资料及其英译本的收集、电子化、对齐、标注等提供参考,推动基于语料库的翻译理论和实践的发展,也能为语言对比研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供平台。
构建基于词粒度的双语平行语料库,对齐层次更细,提供了更细程度的对译信息,有助于更深入地理解和研究传统文化,为汉语古籍的英文翻译等研究提供更为细化的参考。
此外,基于平行语料库中标注好的实体来构建双语知识图谱,可通过该可视化的图谱直观地了解、展示古代典籍中发生并记载的事件、以及与之有关的人物、地点等,有助于对古代历史与文化的深入学习与进一步研究,并提供相关古籍中人物、时间、地点、事件检索的平台与途径。
5. 研究计划与进展
在语料的收集方面,通过对古文典籍的搜集、整理,拟选定《论语》原文作为初始语料,并进行相应英文翻译整理工作,完成全部语料的收集。对语料进行预处理工作,进行手工分词,由于英文字符之间自带空格,所以仅对汉语语料进行手工分词处理。进行汉英对齐标注,建立基于词粒度的双语平行语料库。由于标注量较大,预期三周完成双语平行语料库的构建。
