重回榜首的BERT改进版开源了，千块V100、160GB纯文本的大模型

发布时间：2019-07-31 17:16:18 所属栏目：Windows 来源：机器之心编译

导读：前段时间 Facebook 创建的改进版 BERTRoBERTa，打败 XLNet 登上了 GLUE 排行榜榜首。近日，Facebook 公开了该模型的研究细节，并开源了模型代码。 BERT 自诞生以来就展现出了卓越的性能，GLUE 排行榜上前几名的模型一度也大多使用 BERT。然而，XLNet 的横

神经机器翻译领域之前的工作表明，在学习率适当提高时，以非常大的 mini-batch 进行训练可以同时提升优化速度和终端任务性能。最近的研究表明，BERT 也能适应大批量训练。

表 3：在 BOOKCORPUS 和 WIKIPEDIA 上用不同的 batch 大小（bsz）训练的基础模型在留出训练数据（ppl）和开发集上的困惑度。

4. 文本编码

Byte-Pair Encoding（BPE）是字符级和词级别表征的混合，支持处理自然语言语料库中的众多常见词汇。

原版的 BERT 实现使用字符级别的 BPE 词汇，大小为 30K，是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式，而是考虑用更大的 byte 级别 BPE 词汇表来训练 BERT，这一词汇表包含 50K 的 subword 单元，且没有对输入作任何额外的预处理或分词。这种做法分别为 BERTBASE 和 BERTLARGE 增加了 15M 和 20M 的额外参数量。

实验结果

Facebook 研究人员综合所有这些改进，并评估了其影响。结合所有改进后的方法叫作 RoBERTa（Robustly optimized BERT approach）。

为了厘清这些改进与其他建模选择之前的重要性区别，研究人员首先基于 BERT LARGE 架构训练 RoBERTa，并做了一系列对照试验以确定效果。

表 4：随着训练数据的增大（文本数量从 16GB → 160GB）、训练步长的增加（100K → 300K → 500K 训练步），RoBERTa 在开发集上的结果。在对照试验中，表格中每一行都累积了前几行的改进。

对于 GLUE，研究人员考虑了两种微调设置。在第一种设置中（单任务、开发集），研究人员分别针对每一项 GLUE 任务微调 RoBERTa，仅使用对应任务的训练数据。在第二种设置中（集成，测试集），研究人员通过 GLUE 排行榜对比 RoBERTa 和其他方法。

表 5：多个模型在 GLUE 上的结果。所有结果都基于 24 层的模型架构。

【编辑推荐】

网络安全主要有哪些关键技术？浅谈网络安全的几个主要技术
一个被 CEO 逼疯的技术负责人的检讨书
纯技术干货分享：分布式事务处理方式总结
程序员们用了就离不开的10款开发软件，今天全部安利给大家
工信部废止《关于组织开展计算机技术与软件专业技术资格（水平）证书登记工作的通知》部分文件

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：漯河站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页