BERT:用于语言理解的深度双向变压器预训练外文翻译资料

 2023-02-01 10:02

毕业设计(论文)外文翻译

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

Google AI Language

{jacobdevlin,mingweichang,kentonl,kristout}@google.com

摘要

我们介绍了一种新的语言表征模型BERT,它表示转换器的双向编码器表示。与最近的语言表征模型不同(Peters等人, 2018; Radford等人, 2018),BERT通过在所有层的上下文联合调节来预训练深层双向表征。因此,只需一个额外的输出层就可以对预先训练好的BERT表征进行微调,以便为各种任务创建最先进的模型,例如问答和语言推断,而无需基本的任务特定架构修改。

BERT概念简单,经验丰富。它在11项自然语言处理任务中获得了最新的技术成果,包括将GLUE的基准值提高到80.5%(7.7%的绝对改进)、多项准确率提高到86.7%(4.6%的绝对改进)、将SQuAD v1.1的问答测试F1提高到93.2(1.5的绝对改进) 和将SQuAD v2.0的测试F1提高到83.1(5.1的绝对改进)。

简介

语言模型预训练已经证明对改进许多自然语言处理任务有效 (Dai和Le, 2015; Peters等人, 2018a; Radford等人, 2018; Howard和Ruder, 2018)。这些任务包括句子级别的任务,如自然语言推理 (Bowman等人, 2015; Williams等人, 2018) 和释义 (Dolan和Brockett, 2005),旨在预测整体句子通过分析他们之间的关系,以及标记级任务,比如命名实体识别和回答问题,模型需要产生细粒度输出在标记级别(Tjong Kim Sang和De Meulder, 2003; Rajpurkar等人, 2016)。

现有两种策略可用于将预先训练过的语言表征应用于下游任务:基于特性和微调。基于特征的方法,如ELMo (Peters等人,2018a),使用特定于任务的架构,其中包括预先训练的表征作为额外的特征。微调方法,如 Generative Pre-trained Transformer

(OpenAI GPT) (Radford等人, 2018),引入最小任务特定参数,并通过简单地微调所有预训练参数对下游任务进行训练。这两种方法在预训练期间共享相同的目标函数,即使用单向语言模型来学习一般的语言表征。

我们认为当前的技术严重限制了预训练表征的能力,特别是对于微调方法。主要限制是标准语言模型是单向的,这限制了在预训练期间可以使用的体系结构的选择。例如,在OpenAI GPT中,作者使用了从左到右的体系结构,其中每个标记只能处理Transformer自我关注层中的前一个标记(Vaswani等人, 2017)。这些限制对于句子级别任务来说是次优的,并且在将基于微调的方法应用于标记级别任务(例如回答问题)时可能是毁灭性的,在这些任务中,从两个方向结合上下文至关重要。

在本文中,我们通过提出BERT:变换器的双向编码器表示来改进基于微调的方法。受到完形任务的启发(Taylor,1953),BERT通过使用一个 “掩码语言模型”(MLM)预训练目标,来缓解前面提到的单向约束问题。掩码语言模型从输入中随机地掩盖一些标记,并且目标是仅基于其上下文来预测被掩盖的单词的原始词汇id。与从左到右的语言模型预训练不同,MLM目标允许表征融合左右上下文,这允许我们预训练一个深度双向变换器。除了掩码语言模型,我们还使用了一个“下一句预测”任务来联合预训练文本对表征。本文的贡献如下:

  • 我们证明了语言表征的双向预训练的重要性。与Radford等人(2018)使用单向语言模型进行预训练不同,BERT使用掩码语言模型来实现预训练的深度双向表示。这也与Peters等人(2018a)形成对比,Peters等人使用独立训练的从左到右和从右到左的LMs进行浅层连接。

1

Proceedings of NAACL-HLT 2019, pages 4171–4186

Minneapolis, Minnesota, June 2 - June 7, 2019. Ⓧc 2019 Association for Computational Linguistics

  • 我们展示了预先训练的表征减少了许多经过大量工程设计的特定于任务的体系结构的需求。BERT是第一个基于微调的表示模型,它在大量的句子级和标记级任务上实现了最先进的性能,优于许多具有任务特定体系结构的系统。
  • BERT为11个NLP任务推进了最先进的技术。代码和预先训练过的模型可在以下网址找到https://github.com/google-research/bert.

相关工作

一般语言表示的预先训练由来已久,我们在本节简要回顾一下最广泛使用的方法。

无监督的基于特征的方法

几十年来,学习广泛适用的词语表征一直是一个活跃的研究领域,包括非神经(Brown等人, 1992; Ando和Zhang, 2005; Blitzer等人, 2006)和神经 (Mikolov等人, 2013; Pennington等人, 2014)方法。预先训练的词嵌入是现代自然语言处理系统的一个组成部分,与从零开始学习的嵌入相比,提供了显著的改进(Turian等人, 2010)。为了预先训练词嵌入向量,使用了从左到右的语言建模目标(Mnih和Hinton, 2009),以及在左右上下文中区分正确和不正确的单词的目标(Mikolov等人, 2013)。

这些方法已被推广到更粗的粒度,如句子嵌入(Kiros等人, 2015; Logeswaran and Lee, 2018)或段落嵌入(Le and Mikolov, 2014)。为了训练句子表征,之前的工作已经使用目标对候选下一个句子进行排序(Jernite等人, 2017; Logeswaran和Lee, 2018),从左到右生成下一个句子单词,给定前一个句子的表示(Kiros等人, 2015),或去噪自编码器派生目标(Hill等人, 2016)。

ELMo及其前身(Peters等人, 2017, 2018a)将传统的词嵌入研究从不同的维度进行推广。它们从从左到右和从右到左的语言模型中提取上下文敏感的特征。每个标记的上下文表征是通过串联从左到右和从右到左的表征得到的。在将上下文词嵌入与现有的特定任务架构相结合后,ELMo在几个主要NLP基准测试上取得了更好的成绩(Peters等人, 2018a),包括问答(Rajpurkar等人, 2016)、情感分析(Socher等人, 2013)和命名实体识别(Tjong Kim Sang和De Meulder, 2003)。Melamud等人(2016)提出了使用LSTMs模型通过一个预测单词左右上下文的任务来学习上下文表征。与ELMo相似,他们的模型是基于特征的,并不是深度双向的。Fedus等人(2018)展示了完形填空任务可用于提高文本生成模型的鲁棒性。

无监督的微调方法

与基于特征的方法一样,该方向一开始只是在未标记的文本上预训练词嵌入参数(Collobert和Weston, 2008)。

最近,生成上下文标记表示的句子或文档编码器已经从未标记的文本中进行了预训练,并针对受监督的下游任务进行了微调(Dai和Le, 2015; Howard和Ruder, 2018; Radford等人, 2018)。这些方法的优点是几乎不需要从头学习参数。至少部分由于这一优势,OpenAI GPT (Radford等人, 2018)在GLUE基准的许多句子级别任务上取得了历史上最好的成绩(Wang等人, 2018a)。

从监督数据迁移学习

也有研究表明,使用大数据集的监督任务可以有效迁移,如自然语言推理(Conneau等人, 2017)和机器翻译(McCann等人, 2017)。计算机视觉研究也证明了从大型预训练模型中迁移学习的重要性,其中一个有效的方法就是微调ImageNet的预训练模型(Deng等人, 2009; Yosinski等人, 2014)。

BERT

我们将在本节中介绍BERT及其详细实现。在我们的框架中有两个步骤:预训练和微调。在预训练期间,BERT模型在不同预训练任务的未标记数据上进行训练。对于微调,BERT模型首先用预先训练好的参数进行初始化,并且所有参数都基于下游任务中的有标签的数据进行过微调。每个下游任务都有单独的微调模型,即使它们是用相同的预先训练好的参数进行初始化的。图1中的问题回答示例将作为本节的运行示例。

BERT的一个显著特点是它的跨任务的统一架构。预先训练过的体系结构和最终的下游体系结构之间的差别很小。

EN

E[SEP]

E1rsquo;

预训练 微调

BERT

NSP Mask LM

Mask LM

MNLI NER SQuAD

Start/End Span

[CLS] Tok 1

...

Tok N

[SEP]

Tok 1

...

TokM

[CLS] Tok 1

...

Tok N

[SEP]

Tok 1

...

TokM

Masked Sentence A

Masked Sentence B

Question

Paragraph

Unlabeled Sentence A and B Pair

Question Answer Pair

...

...

BERT

... TMrsquo;

T1rsquo;

C T1 ... TN T[SEP]

...

...

BERT

... TMrsquo;

T1rsquo;

C T1 ... TN T[SEP]

E1rsquo;

E[SEP]

EN

EMrsquo;

E[CLS] E1

EMrsquo;

E[CLS] E1

图1:BERT的整体预训练和微调程序。除了输出层之外,在预训练和微调中都使用了相同的体系结构。相同的预训练的模型参数被用来初始化不同下游任务的模型。在微调过程中,所有参数都会被微调。[CLS]是一个添加在每个输入示例前面的特殊符号,而[SEP]是一个特殊的分隔符(例如分隔问题/答案)。

模型架构 BERT的模型架构是一个多层双向Transformer编码器,基于Vaswani等人(2017)中描述的原始实现,并在tensor2tensor库中发布1。由于Transformer的使用已经变得很常见,而且我们的实现几乎与最初的完全相同,因此我们将省略对模型架构的详尽背景描述,并向读者推荐Vaswani等人(2017)以及“带注释的Transformer”等优秀指南2

在这项工作中,我们用L表示层数(即转换器块),用H表示每个隐藏层维数的大小,用A表示自注意力头的数量3。我们主要报告两种模型尺寸的结果:BERTBASE (L=12, H=768, A=12, 总参数=110M)和 BERTLARGE (L=24, H=1024, A=16, 总参数=340M)。

为了便于比较,我们选择了与OpenAI GPT具有相同模型大小的BERT

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[261133],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。