分享好友 最新动态首页 最新动态分类 切换频道
超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级
2024-11-07 23:08

新智元原创

超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

编辑:小智,元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了!目前拥有八个数据集的整体测评及其基线模型,30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料,研究者可直接拿来做预训练,完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

做中文NLP,太难了!

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」,到底说的是「I like the last one」,还是说「I'm falling love with someone」?需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app,你会发现很多时候它读的停顿不对,很多读音也不对,比如把「有债必还」,读成「有债必孩」。千万别让孩子跟着AI学语文!

获取资源更难。

英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,虽然很多大厂最先进的技术都用上了,但没有开源数据集和预训练模型,那么多数人就用不上;同时由于是针对企业内部定制的,缺乏普适性。

天下苦中文NLP久矣!

好在,希望出现了!

一群中文NLP开发者,凭着一腔热情,利用业余时间,在GLUE的基础上,做出了中文语言理解测评基准CLUE。这是什么精神?

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生,承载着这群开发者巨大的野心:跑遍主流的中文数据集,解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题,见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容:

本次选取的8个任务可以全面测试预训练模型的语言理解能力,CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性,而且每个任务必须要有明确的定义,比如短文本的分类任务,句子相似性判断等。CLUE官方会处理好数据,让研究者可以更专注在建模本身。

任务的难度方面,不能太简单也不能是已经解决的问题,太简单的问题没有研究价值,只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表,可以很容易应用到现实场景,如果任务很生僻没有实用价值,那它就没有多大意义了。

最后一点,任务要能衡量汉语独有的语言特性,比如成语、俗语,这块将会给模型带来巨大的挑战,汉语本身就很难了,再加上成语大多是高度概括的,模型理解起来就更有难度。

八个任务

CLUE官方总共收集了214 GB的原始语料库,大约760亿个单词,包含三个部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库,包括四个子部分:新闻,网页文本,维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库,该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练,而无需其他预处理,包含约2万9千个单独的文件,每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库,它是通过Common Crawl语料库的语言分类过滤得到的,包含250 GB的中文原始语料库,做进一步的处理后,最终得到100 GB的中文数据。

你建好了模型,还要一个个去适配所有的8个任务,那就太麻烦了,CLUE官方专门写了一个工具PyCLUE,可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义,结合中文的特点手工制作了一个包含514个句子对的诊断集,这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜,供用户在CLUE上提交自己的结果。当用户提交预测结果时,评估系统将为每个任务提供最终分数。为了鼓励模型复现,如果模型是开源的,会将模型标记为“已认证”。

看看榜单上这些名字!华为、腾讯都来CLUE刷榜了,但看起来都不如CLUE官方团队提供的人类成绩,实力还是有待提高!

如果想了解CLUE的更多详细信息,可参见CLUE团队最近发表在arxiv的论文。

论文链接:

https://arxiv.org/abs/2004.05986

现在,CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选,推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至:

CLUE@CLUEBenchmarks.com

只需满足以下要求,即可进行推荐:

如果您推荐的数据集被选中,将能极大扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接:

最新文章
谷歌SEO优化:哪些平台适合做?
随着互联网技术的不断发展,如何在谷歌等搜索引擎上做好搜索引擎优化(SEO)已经成为当今网络营销中的重要一环。SEO的实现需要选择合适的平台进行推广和营销,那么哪些平台适合做呢?下面是一些值得你尝试的平台。Google My Business这是用
指定api路径_苹果cms如何设置api?
①接口开关:开启②是否收费:根据自己需求设置收费与否③列表每页显示数量:建议默认20④图片域名:显示图片的完整访问路径所需要,以http:开头,/结尾,不包含upload目录" (如图中方式填
谷歌浏览器(Google Chrome) 内核版v131.0.6778.205
谷歌浏览器免费版是一款安全,稳定和快速的通用浏览器。谷歌浏览器免费版的设计思想基于简单、高速、稳定、安全等理念,并采用Google独家开发出的V8引擎以提升解译JavaScript的效率,而且设计了“沙盒”、“黑名单”、“无痕浏览”等功能来
苹果cms开启微信QQ防红防封功能
声明:除特殊声明外本站文档均由作者原创,转载请注明出处,原文地址:https://www.mytheme.cn/article/177.html最**果cms更新频繁,功能不断更新叠加。今天来普及下苹果v10 更新增加的新功能“微信QQ防红防封跳转提示”开启使用教程。相信
谷歌SEO新手步骤,怎么做?
在当今这个信息爆炸的时代,网站要想在众多竞争者中脱颖而出,谷歌SEO(搜索引擎优化)无疑是一把利剑。作为一名在SEO领域摸爬滚打多年的实践者,我深知新手们面对这个复杂系统时的迷茫与困惑。因此,我将结合自己的实战经验,用通俗易懂的
SEO关键词培训攻略,解锁网站流量与排名提升的秘诀课程
本课程深入解析SEO关键词策略,助您掌握提升网站流量与排名的必备技能。通过学习,有效提高网站搜索引擎排名,实现网站流量倍增。随着互联网的飞速发展,SEO(搜索引擎优化)已成为企业网站提升在线曝光度和流量的关键手段,而在SEO领域中
微信跳转抖音链接生成步骤,在线免费创建
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客》》点此生成链接
Desk平台设计_今日desk设计教程
摘要:Desk平台设计,今日desk设计教程,新片场素材小编谈梓Desk平台设计,今日desk设计教程相关内容整理,如果您对Desk平台设计,今日desk设计教程感兴趣欢迎访问免费阅读。Desk平台设计,今日desk设计教程一、Desk平台在线设计教程介绍Udesk
新股速递 | 360金融,互联网巨头旗下金融科技公司上市第一股
本文由“华盛证券”供稿,文中观点不代表智通财经观点。360金融是由360金服(北京奇步天下科技有限公司运营的集团)孵化,成立于2016年7月,并于2018年9月拆分独立运营发展,自成立到赴美上市,时间不足三年。根据招股书,从放款额算,360
WordPress后台上传文件大小受限制解除方法
WordPress后台上传文件大小受限制解除方法最近刚录了一个外贸photoshop教程一,录制后想把视频上传到网站,然后就遇到了一个问题,就是视频太大,后台无法上传。wordpress后台默认支持上传文件的大小是50M, 但我录制的视频教程经压缩后还
相关文章
推荐文章
发表评论
0评