推广

【论文解读】文本分类上分利器:Bert微调trick大全

iseeyu2年前 (2024-02-21)推广112

  • Fine-Tuning Strategies:当我们为目标任务微调 BERT 时,有很多方法可以
    使用 BERT。 例如,BERT 的不同层捕获不同级别的语义和句法信息,哪一层更适合目标任务? 我们如何选择更好的优化算法和学习率?

  • Further Pre-training:BERT 在通用域中训练,其数据分布与目标域不同。 一个自然的想法是使用目标域数据进一步预训练 BERT。这个真的非常有效,在微调达到一定瓶颈之后,可以尝试下在比赛语料上ITPT,也就是继续预训练。在海华阅读理解比赛以及基于文本挖掘的企业隐患排查质量分析模型都得到了成功验证~

  • Multi-Task Fine-Tuning:在没有预先训练的 LM 模型的情况下,多任务学习已显示出其利用多个任务之间共享知识优势的有效性。 当目标域中有多个可用任务时,一个有趣的题是,在所有任务上同时微调 BERT 是否仍然带来好处。

微调策略

1. 处理长文本
我们知道BERT 的最大序列长度为 512,BERT 应用于文本分类的第一个问题是如何处理长度大于 512 的文本。本文尝试了以下方式处理长文章。

Truncation methods 截断法
文章的关键信息位于开头和结尾。 我们可以使用三种不同的截断文本方法来执行 BERT 微调。

  1. head-only: keep the first 510 tokens 头部510个字符,加上两个特殊字符刚好是512 ;
  2. tail-only: keep the last 510 tokens;尾部510个字符,同理加上两个特殊字符刚好是512 ;
  3. head+tail: empirically select the first 128and the last 382 tokens.:尾部结合

Hierarchical methods 层级法
输入的文本首先被分成k = L/510个片段,喂入 BERT 以获得 k 个文本片段的表示向量。 每个分数的表示是最后一层的 [CLS] 标记的隐藏状态,然后我们使用均值池化、最大池化和自注意力来组合所有分数的表示。

上表的结果显示,head+tail的截断法在IMDb和Sogou数据集上表现最好。后续的实验也是采用这种方式进行处理。

2. 不同层的特征
BERT 的每一层都捕获输入文本的不同特征。 文本研究了来自不同层的特征的有效性, 然后我们微调模型并记录测试错误率的性能。

我们可以看到:最后一层表征效果最好;最后4层进行max-pooling效果最好
3. 灾难性遗忘
Catastrophic forgetting (灾难性遗忘)通常是迁移学习中的常见诟病,这意味着在学习新知识的过程中预先训练的知识会被遗忘。
因此,本文还研究了 BERT 是否存在灾难性遗忘问题。 我们用不同的学习率对 BERT 进行了微调,发现需要较低的学习率,例如 2e-5,才能使 BERT 克服灾难性遗忘问题。 在 4e-4 的较大学习率下,训练集无法收敛。

这个也深有体会,当预训练模型失效不能够收敛的时候多检查下超参数是否设置有问题。
4. Layer-wise Decreasing Layer Rate 逐层降低学习率
下表 显示了不同基础学习率和衰减因子在 IMDb 数据集上的性能。 我们发现为下层分配较低的学习率对微调 BERT 是有效的,比较合适的设置是 ξ=0.95 和 lr=2.0e-5

为不同的BERT设置不同的学习率及衰减因子,BERT的表现如何?把参数θ \thetaθ划分成{ θ 1 , … , θ L } {\theta1,\dots,\thetaL}{θ
1
,…,θ
L
},其中θ l \theta^lθ
l

ITPT:继续预训练

Bert是在通用的语料上进行预训练的,如果要在特定领域应用文本分类,数据分布一定是有一些差距的。这时候可以考虑进行深度预训练。

Within-task pre-training:Bert在训练语料上进行预训练
In-domain pre-training:在同一领域上的语料进行预训练
Cross-domain pre-training:在不同领域上的语料进行预训练

  1. Within-task pretraining

    BERT-ITPT-FiT 的意思是“BERT + with In-Task Pre-Training + Fine-Tuning”,上图表示IMDb 数据集上进行不同步数的继续预训练是有收益的。
    2 In-Domain 和 Cross-Domain Further Pre-Training

    我们发现几乎所有进一步的预训练模型在所有七个数据集上的表现都比原始 BERT 基础模型。 一般来说,域内预训练可以带来比任务内预训练更好的性能。 在小句子级 TREC 数据集上,任务内预训练会损害性能,而在使用 Yah 的领域预训练中。Yah. A.语料库可以在TREC上取得更好的结果。

这篇论文与其他模型进行了比较,结果如下表所示:

我们可以看到ITPT和IDPT以及CDPT的错误率相比其他模型在不同数据集有不同程度下降。

多任务微调

所有任务都会共享BERT层及Embedding层,唯一不共享的层就是最终的分类层,每个任务都有各自的分类层。

上表表明对于基于BERT多任务微调,效果有所提升,但是对于CDPT的多任务微调是有所下降的,所以说多任务学习对于改进对相关文本分类子任务的泛化可能不是必要的。

小样本学习 Few-Shot Learning

实验表明:BERT能够为小规模数据带来显著的性能提升。

BERT Large模型上进一步预训练

实验结果表明:在特定任务上微调BERT Large模型能够获得当前最优的结果。

接下来给大家带来干货部分:不同学习率策略的使用

不同学习率策略

完整代码回复“学习率”获取

  1. Constant Schedule

  2. Constant Schedule with Warmup

  3. Cosine with Warmup

  4. Cosine With Hard Restarts

  5. Linear Schedule with Warmup

  6. Polynomial Decay with Warmup

参考资料

  • 一起读论文 | 文本分类任务的BERT微调方法论
  • NLP重铸篇之BERT如何微调文本分类
  • 【论文解析】如何将Bert更好地用于文本分类(How to Fine-Tune BERT for Text Classification?)
  • How to Fine-Tune BERT for Text Classification 论文笔记
  • Bert微调技巧实验大全
  • 论文阅读笔记:这篇文章教你在文本分类任务上微调BERT
  • How to Fine-Tune BERT for Text Classification?读论文
    -如何让Bert在finetune小数据集时更“稳”一点

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/57111.html

相关文章

小红书推广营销指南,教你避开90%的坑

小红书推广营销指南,教你避开90%的坑

面对小红书精准的2亿年轻女性用户群体,看着蛋糕流口水也不行,总得做些什么,我希望你在小红书的推广,不是囫囵吞枣的那一种, 下面分享一些经验所得,10分钟的阅读,或许能省你10万以上的费用。 NO.1 水军&正常用户 讲下水军,像下面这种刷数据的服务商,某宝或者随便找个乙方...

大咖说︱颜海辉:颜老师教你七步设计门店合伙人方案

大咖说︱颜海辉:颜老师教你七步设计门店合伙人方案

连锁门店的核心是什么?不同企业给出的答案不尽相同,但是很显然,人是非常重要的,特别是门店的核心人物——店长。店长流失率高是连锁企业大多的共识,当企业没有打通机制和晋升通道时,店长一眼看到头,晋升无望,每天上班期待着下班。有能力者,1-2年尽早跳槽;无能力者,2-3年迟早淘汰...

网站建设:怎样建设自己的网站首页。

网站建设:怎样建设自己的网站首页。

在进行网站建设中,都希望能够使自己的网站独一无二,因此他们将使用各种精通网页设计技术来构建自己的网站。获得服务器通行证后,您可以随意修改网站。但对于一个网站来说,最重要的是它的主页。我们如何建立我们网站的主页? 一、确定主题 一个网站的首页是整个网站的门面,所以这个门面里面所有的文字内容,包括图...

淘宝sku在哪里设置(天猫店sku在哪里设置)

淘宝sku在哪里设置(天猫店sku在哪里设置)

在“出售中的宝贝”找到需要修改的商品,点击商品右侧的“编辑商品”。在编辑页面,滚动页面到“销售信息——颜色分类”区域,在这里可以看到很多“颜色分类”,简称“SKU”。在SKU的最底部空区里,输入SKU的名称和插入对应的图片。...

App推广:App运营的8条潜规则

App推广:App运营的8条潜规则

  在创业做自媒体之前,我在一家公司做运营总监的职位。再此之前,我自己创办过一个App运营推广的博客。总体来说,我关注App运营这个行当大概有2年的时间。对于一个初入门的App运营者,应该做那些什么工作呢?这个行当里又有哪些潜规则呢? 首先我们来解构下App运营这个职位。运营...

2020年各大主流信息流推广渠道分析

2020年各大主流信息流推广渠道分析

本篇文章为大家总结了主流信息流广告渠道的特性及一些投放建议,供大家在投放选择渠道时进行参考。 01、腾讯社交平台 腾讯,可以说是社交行业的龙头老大,成立时间最早,凭借QQ和微信,占据庞大的流量,基本达到覆盖全网用户;以及基于腾讯新闻类的信息流广告。 主要产品 腾...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片