分享好友 最新动态首页 最新动态分类 切换频道
bert文本摘要ppt bert论文解读
2024-12-26 15:06

 

bert文本摘要ppt bert论文解读

论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

以下陆续介绍bert及其变体(介绍的为粗体)

bert自从横空出世以来,引起广泛关注,相关研究及bert变体/扩展喷涌而出,如ELECTRADistilBERT、SpanBERT、RoBERTa、MASS、UniLM、ERNIE等。

由此,bert的成就不仅是打破了多项记录,更是开创了一副可期的前景。

在看bert论文前,建议先了解《Attention is all you need》论文。

  • 通过MLM,使用双向Transformer模型,获得更丰富的上下文信息
  • 输入方式,句子级输入,可以是一个句子或2个句子,只要给定分隔标记即可

Transformer,多头注意力等概念见bert系列一

  • feature-based:提取某层或多层特征用于下游任务。代表:ELMo
  • fine-tuning:下游任务直接在预训练模型上添加若干层,微调即可。代表:OpenAI GPT,bert

文中操作为,对15%的token进行mask标记,被标记的token有80%的情况下以[MASK]代替,10%以随机token代替,10%不改变原始token。

为什么要mask操作?因为,要使用双向模型,就面临一个“看见自己”的问题,如bert系列一所述。那么我们将一个token mask掉(是什么蒙蔽了我的双眼?是mask),它就看不见自己啦!

为什么不对选中的token全部mask?因为,预训练中这么做没问题,而在下游任务微调时,[MASK] token是不会出现的,由此产生mismatch问题。

如图,输入可以是一个句子,或2个句子,最后都转换成最大长度521的序列,序列的开头是一个[CLS]标记,用于分类或预测下一句等任务。句子之间也有一个[SEP]标记,用于分隔句子。

对于微调,如图示问答任务,用S表示答案开头,E表示答案末尾。第i个单词(Ti)作为答案开头的概率为:

 即单词隐层表示Ti与开头S点乘后的softmax值。

候选范围i~j的得分为STi+ETj,取其中得分最大(i,j)的作为答案的预测范围。

输入Embedding使用3个嵌入相加,token嵌入层就是我们通常用的嵌入方式,segment用于区分一个token属于句子A还是B,Position用于位置编码(自注意需要)

如下图:

 


再介绍一个参数少,训练快,性能好ELECTRA。来自论文《ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS》

不使用mask操作,而是从一个较小的生成器(文中建议大小为判别器的1/4到1/2)中采样来替换一些tokens,然后使用一个判别器去判断这个token是真实的还是生成器产生的。这样模型可以使用全部的tokens而非bert中15%mask的token去训练。

这有点像GAN(生成对抗网络)的概念,不同的是,这里的生成器并不以fool判别器为目标,而是基于极大似然原则训练(其实GAN也可以通过极大似然,只不过生成器反向传播更新需要通过鉴别器)。

 如图,先标记若干位置为mask点,然后使用生成器采样的数据覆盖mask位置,再使用判别器判断每个token是原生的还是伪造的。

 生成器负责对选定的m个点使用极大似然训练,而判别器将要对所有的token进行真伪判断。

最终loss为加权和:

文中仅使用Embedding参数在生成器和判别器中共享(token和positional Embedding,这样做更高效)


论文为《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》介绍部分我认为机器之心的这篇文章不错

 这里只总结一下

蒸馏模型之前也有。主要是使用了软目标交叉熵损失,以及学生网络初始化的方式。

模型大小减到60%,保留97%语言理解能力,推理速度快60%

训练方式为蒸馏(即使用学生网络模拟教师网络,这里bert-base作为教师网络)。

损失由3部分组成,一部分是学生网络与教师网络的软目标交叉熵,一部分为学生网络与教师网络隐状态矢量的嵌入余弦损失,一部分为掩饰语言模型(mlm)损失。其中前2个损失较为重要。

模型移除了token Embedding层和pooler(用于下一句预测),layer数量减到一半。学生网络的初始化也很重要,因为layer只有一半,所以初始化也是从2个layer中取1个。使用非常大的batch_size=4000等。

 


最新文章
2024晗山悦海(晗山悦海)官方首页网站|晗山悦海百度百科|房天下
深圳·晗山悦海✅晗山悦海售楼处24小时电话:400-883-1335【☎已认证】✅晗山悦海营销中心24小时电话:400-8950-807【☎已认证】Vip贵宾置业===欢迎来电预约尊享内部折扣===匠心钜制恭迎品鉴✅晗山悦海售楼中心24小时电话:400-109-0755【☎已
2021年傲剑情缘双开挂机必备!最新免费神器大盘点揭秘
在浩瀚的游戏世界中,总有那么几款游戏能够深深吸引玩家的心,而《傲剑情缘》无疑是其中之一,这款融合了古风仙侠与浪漫情缘的游戏,以其精美的画面、丰富的剧情和多样的玩法,赢得了无数玩家的青睐,对于许多热爱这款游戏的玩家来说,如何
2025年传媒互联网行业策略:重视AI应用落地机会,把握景气新娱乐赛道.pdfVIP
证券研究报告·行业年度策略报告·传媒互联网增持(维持)重视AI应用落地机会,把握景气新娱乐赛道——2025年传媒互联网行业策略证券分析师:张良卫证券分析师:周良玖证券分析师:张家琦执业证书编号:S0600516070001执业证书编号:S06005
5分钟学会SK5天翼云 一键脚本IP搭建教程
此教程搭建不能用于非法用途目前市面上天翼云是性价比最高最划算的服务商联系勤奋开通最低折扣账户后搭建IP成本低至3元每月一条纯独享IP 此教程搭配一键搭建脚本没有任何电脑操作经验的人也可以5分钟轻松学会搭建SK5简易流程:1.选择搭建
5.0(0人评价)★★★★★
韩教授为河北师大软件学院网络教室主任,河北地质大学客座教授,擅长计算机网络原理、CCNA、网络安全等领域,从事IT技术培训工作十余年,并多年从事微软的产品技术支持服务,在排除操作系统和网络故障方面积累了大量的经验。经过多年的积累
2024大数据分析与应用服务付款合同协议书
甲方:XXX乙方:XXX20XXCOUNTRACTCOVER专业合同封面RESUME甲方:XXX乙方:XXX20XXCOUNTRACTCOVER专业合同封面RESUMEPERSONAL
2024年龙岸君粼(龙岸君粼)官方首页网站|龙岸君粼百度百科|房天下
深圳·龙岸君粼✅龙岸君粼售楼处24小时电话:400-883-1335【☎已认证】✅龙岸君粼营销中心24小时电话:400-8950-807【☎已认证】Vip贵宾置业===欢迎来电预约尊享内部折扣===匠心钜制恭迎品鉴✅龙岸君粼售楼中心24小时电话:400-109-0755【☎已
2023考验手速和反应力的手机游戏大全 需要手速快的游戏有哪些
相信大家都听说过“老年人手速”这个词,很多游戏对大家的手速要求还是比较高的。这一期小编给大家推荐几款考验手速和反应力的手机游戏,这些游戏不似一般休闲手游一样轻松,要想通关或者获胜至少还是需要一定手速的。几款游戏中有的是考验
360BugCloud开创漏洞自主议价新模式
开源软件曾被视为技术发烧友的“专享”,现在已经逐渐成为众多关键基础设施组件的基本组成部分。《2020年开源安全和风险分析(OSSRA) 报告》显示:2019年,经过审计的有效代码库中,99%的代码库至少包含一个开源组件,开源在所有代码中所占
相关文章
推荐文章
发表评论
0评