基于古白平行语料的自动分词研究开题报告

 2022-01-16 19:28:54

全文总字数:7257字

1. 研究目的与意义、国内外研究现状(文献综述)

课题意义:

“汉语是目前全球范围内,人类正在使用的语种当中最为古老、使用时间最长语种之一。汉语古代典籍不仅是数量上还是涉及范围及其时间的跨度,在全球范围内上都是不可比拟的。”悠久的历史造就了灿烂的中国思想文化,通过这些古代典籍得以保存并一代代传承至今,在上下五千年的传承与延续过程中,又加入后人的深入研究与挖掘,融入新的内涵,由此构筑了中国的古代文明。今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,特别是我们可以清晰的体会到其在人文学科领域的应用价值。与此同时,显而易见的是,伴随人们逐步提高的文化水平、经济的全球化发展和稳步增加的国与国之间的往来交流,有意愿深入了解并认知感受中国传统思想文化的非相关领域专业人士和外籍人士数量始终保持上升趋势。然而,古代汉语和现代汉语虽然同为汉语,但在此之间客观存在着的明显差异以及当前人们有限的认知,使得目前很多人很难做到充分理解以古汉语为载体的传统典籍。在这样的情况下,我们提出了要建设一个大型、开放的古代汉语与现代汉语平行语料库及其应用平台的意向,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。

研究概况:

在国外,挪威、荷兰、英国、美国、加拿大等许多国家都建立了设计不同语种的不同规模的平行语料库,涉及汉语的平行语料库中影响较大的是与freiburg-lob corpus of british english(即flob)平行对应的汉语语料库lcmc(the lancaster corpus of mandarin chinese)。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

研究的目标:

现阶段语料库在构建过程中分词标注标准不统一甚至缺乏,再加上人工分词、标注、校验时难免疏忽,导致同一字段在相同、相似语境中切分结果不一致。这种现象在中古汉语语料建设中更为突出,它不仅影响了语料库分词的正确率,还将错误带到了语料进一步加工、使用的环节。因此,应将分词一致性作为衡量语料库质量的重要标准之一。

研究内容:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

1.研究方法与技术路线

(1)bi-lstm模型

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

平行语料

平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

“平行语料库”由英文术语“parallel corpus”翻译而成。但不同的语言研究者对“parallel corpus”的定义不尽相同,我国不同的学者对“parallel corpus”的翻译也存在着差异。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 研究计划与进展

研究计划

本项目预计为期半年,分为四个阶段:

1.2018年8-9月,前期调研,撰写文献综述。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版