1. 研究目的与意义、国内外研究现状(文献综述)
汉英语料的平行语料库建设,旨在利用双语信息以解决歧义现象。
本课题研究了汉英平行语料中的未登录词识别、词性标注、词义标注及句法分析等层面的平行处理技术及其有效性,实现了汉-英双向平行处理。
在词汇未对齐平行语料中,采用了基于个性规则的词性、词义消歧方法。精加工1000句对的汉英平行语料,可作为加工大规模平行语料的资源。
2. 研究的基本内容和问题
研究目标、内容:
本课堂着力研究面向汉英典籍平行语料库的分词和词性标注,以人工标校的《论语》作为实验对象。汉英语料的平行语料库建设,旨在利用双语信息以解决歧义现象。
关键问题:
3. 研究的方法与方案
机器翻译(machine translation,简称m t),是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理 (natural language processing)的一个分支,与计算语言学(computational linguistics)、自然语言理解(natural language understanding)之间存在着密不可分的关系。
语料库是机器翻译的基础。语料库为机器翻译提供了源语言和目标语言之间语义映射的基本素材和多种选择。
语料库建设是一项工作量极大的工作,因为一个有实际应用价值的语料库决不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细的设计,只有这样才能保证所投入的工作是值得的。设计一个双语语料库,首先应该考虑语料库的应用目标。语料的收集、语料的构成以及对语料的加工应该紧紧围绕语料库的应用目标进行。作为服务于一个面向标准文献领域的汉英 机器翻译系统的双语语料库而言,在语料的收集、加工等方面,应该跟服务于其他目的(比如语言研究)的语料库有所区别。服务于汉英机器翻译的语料库是一个专用的语料库,而不是一个通用的语料库。在这个前提下,我们不强调语料库中的语料对汉语文本的覆盖性。在对语料的内容、语料库中的文本类 型、文本的创作时间、语料库的结构进行选择时,应以是否有助于面向标准文献领域的汉英机器翻译为准则进行。
4. 研究创新点
现有的词对齐方法往往通过统计信息进行对齐,没有充分考虑过不同语言之间的语言特征。
在训练过程中通常需要大量的标注好的词对齐数据,而人工标注的词对齐数据又太少,不能满足训练需求。
传统的词对齐模型考虑的词汇特征是稀疏的,从而导致语料中低频词的对齐效果较差,本课题针对以上问题,采用深度学习的方法进行词对齐的研究。
5. 研究计划与进展
本课题主要研究工作如下:
(1)在词汇未对齐平行语料中,采用了基于个性规则的词性、词义消歧方法。人工标注《论语》中1000句对的汉英平行语料,可作为加工大规模平行语料的资源。平行处理技术可以有效解决单语处理时的一系列困难,有助于汉英机器翻译知识的自动获取。
(2)研究基于循环神经网络的词对齐方法。该方法将传统的隐马尔可夫模型融入循环神经网络中,并且考虑句子的上下文信息,利用词汇的相似性,将句子中的低频词用意思相近的常用语代替,通过常用词找到与目标语言词的对应关系,从而得到低频词的词对齐信息。模型采用无监督的学习方式,省去了人工标注词对齐的成本,实验结果表明,该方法改善了词对齐的质量。
