毕业设计(论文)外文翻译

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

Google AI Language

{jacobdevlin,mingweichang,kentonl,kristout}@google.com

摘要

我们介绍了一种新的语言表征模型BERT，它表示转换器的双向编码器表示。与最近的语言表征模型不同(Peters等人, 2018; Radford等人, 2018)，BERT通过在所有层的上下文联合调节来预训练深层双向表征。因此，只需一个额外的输出层就可以对预先训练好的BERT表征进行微调，以便为各种任务创建最先进的模型，例如问答和语言推断，而无需基本的任务特定架构修改。

BERT概念简单，经验丰富。它在11项自然语言处理任务中获得了最新的技术成果，包括将GLUE的基准值提高到80.5%(7.7%的绝对改进)、多项准确率提高到86.7%(4.6%的绝对改进)、将SQuAD v1.1的问答测试F1提高到93.2(1.5的绝对改进) 和将SQuAD v2.0的测试F1提高到83.1(5.1的绝对改进)。

简介

语言模型预训练已经证明对改进许多自然语言处理任务有效 (Dai和Le, 2015; Peters等人, 2018a; Radford等人, 2018; Howard和Ruder, 2018)。这些任务包括句子级别的任务，如自然语言推理 (Bowman等人, 2015; Williams等人, 2018) 和释义 (Dolan和Brockett, 2005)，旨在预测整体句子通过分析他们之间的关系,以及标记级任务,比如命名实体识别和回答问题,模型需要产生细粒度输出在标记级别(Tjong Kim Sang和De Meulder, 2003; Rajpurkar等人, 2016)。

现有两种策略可用于将预先训练过的语言表征应用于下游任务:基于特性和微调。基于特征的方法，如ELMo (Peters等人，2018a)，使用特定于任务的架构，其中包括预先训练的表征作为额外的特征。微调方法，如 Generative Pre-trained Transformer

(OpenAI GPT) (Radford等人, 2018)，引入最小任务特定参数，并通过简单地微调所有预训练参数对下游任务进行训练。这两种方法在预训练期间共享相同的目标函数，即使用单向语言模型来学习一般的语言表征。

我们认为当前的技术严重限制了预训练表征的能力，特别是对于微调方法。主要限制是标准语言模型是单向的，这限制了在预训练期间可以使用的体系结构的选择。例如，在OpenAI GPT中，作者使用了从左到右的体系结构，其中每个标记只能处理Transformer自我关注层中的前一个标记(Vaswani等人, 2017)。这些限制对于句子级别任务来说是次优的，并且在将基于微调的方法应用于标记级别任务（例如回答问题）时可能是毁灭性的，在这些任务中，从两个方向结合上下文至关重要。

在本文中，我们通过提出BERT：变换器的双向编码器表示来改进基于微调的方法。受到完形任务的启发（Taylor，1953），BERT通过使用一个 “掩码语言模型”（MLM）预训练目标，来缓解前面提到的单向约束问题。掩码语言模型从输入中随机地掩盖一些标记，并且目标是仅基于其上下文来预测被掩盖的单词的原始词汇id。与从左到右的语言模型预训练不同，MLM目标允许表征融合左右上下文，这允许我们预训练一个深度双向变换器。除了掩码语言模型，我们还使用了一个“下一句预测”任务来联合预训练文本对表征。本文的贡献如下:

我们证明了语言表征的双向预训练的重要性。与Radford等人(2018)使用单向语言模型进行预训练不同，BERT使用掩码语言模型来实现预训练的深度双向表示。这也与Peters等人(2018a)形成对比，Peters等人使用独立训练的从左到右和从右到左的LMs进行浅层连接。

Proceedings of NAACL-HLT 2019, pages 4171–4186

Minneapolis, Minnesota, June 2 - June 7, 2019. Ⓧc 2019 Association for Computational Linguistics

我们展示了预先训练的表征减少了许多经过大量工程设计的特定于任务的体系结构的需求。BERT是第一个基于微调的表示模型，它在大量的句子级和标记级任务上实现了最先进的性能，优于许多具有任务特定体系结构的系统。
BERT为11个NLP任务推进了最先进的技术。代码和预先训练过的模型可在以下网址找到https://github.com/google-research/bert.

BERT

我们将在本节中介绍BERT及其详细实现。在我们的框架中有两个步骤：预训练和微调。在预训练期间，BERT模型在不同预训练任务的未标记数据上进行训练。对于微调，BERT模型首先用预先训练好的参数进行初始化，并且所有参数都基于下游任务中的有标签的数据进行过微调。每个下游任务都有单独的微调模型，即使它们是用相同的预先训练好的参数进行初始化的。图1中的问题回答示例将作为本节的运行示例。

BERT的一个显著特点是它的跨任务的统一架构。预先训练过的体系结构和最终的下游体系结构之间的差别很小。

E[SEP]

E1rsquo;

预训练微调

BERT

NSP Mask LM

Mask LM

MNLI NER SQuAD

Start/End Span

[CLS] Tok 1

...

Tok N

[SEP]

Tok 1

...

TokM

[CLS] Tok 1

...

Tok N

[SEP]

Tok 1

...

TokM

Masked Sentence A

Masked Sentence B

Question

Paragraph

Unlabeled Sentence A and B Pair

Question Answer Pair

...

BERT

... TMrsquo;

T1rsquo;

C T1 ... TN T[SEP]

...

BERT

... TMrsquo;

T1rsquo;

C T1 ... TN T[SEP]

E1rsquo;

E[SEP]

EMrsquo;

E[CLS] E1

EMrsquo;

E[CLS] E1

图1:BERT的整体预训练和微调程序。除了输出层之外，在预训练和微调中都使用了相同的体系结构。相同的预训练的模型参数被用来初始化不同下游任务的模型。在微调过程中，所有参数都会被微调。[CLS]是一个添加在每个输入示例前面的特殊符号，而[SEP]是一个特殊的分隔符(例如分隔问题/答案)。

模型架构 BERT的模型架构是一个多层双向Transformer编码器，基于Vaswani等人(2017)中描述的原始实现，并在tensor2tensor库中发布¹。由于Transformer的使用已经变得很常见，而且我们的实现几乎与最初的完全相同，因此我们将省略对模型架构的详尽背景描述，并向读者推荐Vaswani等人(2017)以及“带注释的Transformer”等优秀指南²。

在这项工作中，我们用L表示层数（即转换器块），用H表示每个隐藏层维数的大小，用A表示自注意力头的数量³。我们主要报告两种模型尺寸的结果：BERT_BASE (L=12, H=768, A=12, 总参数=110M)和 BERT_LARGE (L=24, H=1024, A=16, 总参数=340M)。

为了便于比较，我们选择了与OpenAI GPT具有相同模型大小的BERT

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[261133]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

BERT:用于语言理解的深度双向变压器预训练外文翻译资料

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

摘要

简介

相关工作

无监督的基于特征的方法

无监督的微调方法

从监督数据迁移学习

BERT

您可能感兴趣的文章

最新文档

联系我们

登录

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

摘要

简介

相关工作

无监督的基于特征的方法

无监督的微调方法

从监督数据迁移学习

BERT

您可能感兴趣的文章

最新文档

联系我们