NLP高速赛:微软、谷歌齐上阵,百度文心ERNIE持续领先!

科技馆 2021-03-29 19:58:33

在人工智能的世界里,“自然语言处理(NLP)”技术已发展多年。而作为其重要组成部分之一的预训练模型更是多年“训练”一朝成名,铸就了人工智能算法模型“武器库”中的诸多利器。今天我们就从众多NLP预训练模型“武器库”中,盘盘这些给众人留下印象深刻的模型,而代表中国利刃的百度文心ERINE,又将如何从微软、谷歌等的“武器”中脱颖而出?

首当其冲的是在经典里独孤求败的“玄铁剑”。谷歌BERT模型如同杨过获得的那把来自“剑魔”独孤求败的玄铁重剑,只要增加一个输出层就可以进行调整,以适应更广泛的新任务。正可谓是重剑无锋,大巧不工。紧接着登场的是“鸳鸯剑”XLNet,XLNet是一个双向特征表示的自回归模型,他能够发现两个实体之间的关联情况。还有Facebook的RoBERTa模型,其在BERT的基础上进行了再训练,架势堪比“倚天一出,谁与争锋”,不仅独辟蹊径的改进了训练方法,还增加了数据,强化了计算能力。这些兵器都是AI“侠客”们的“最佳拍档”。但是为“天下武学”兵器造册排行,还是要看作为“武器库”排行榜的——GLUE(通用语言理解评估基准)榜单。

据介绍,作为自然语言处理领域权威排行榜的GLUE,是由纽约大学、华盛顿大学、谷歌DeepMind等机构联合推出,以涵盖大量不同类型的NLP任务,成为衡量自然语言处理研究进展的行业标准。在最新更新的这份“兵器谱”上,百度自研的语义理解框架文心ERNIE拔得头筹,以90.9的成绩获得冠军。

回头来看文心ERNIE一步步的“锻造史”也是不断展露锋芒。文心ERNIE的技术积累可追溯于2013年百度提出的神经网络语义匹配技术,基于深厚的技术积累,百度于2019年3月发布并开源知识增强的预训练模型ERNIE1.0,模型在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等各类中文任务上的效果超越了当时风头正盛的BERT。同年7月,百度升级发布持续学习的语义理解框架ERNIE2.0,在16个中英文任务上超越了BERT和XLNet,取得了SOTA效果。整体来看,ERNIE 2.0不仅完成了一次记录刷新表演,同时通过不断引入新的预训练任务,帮助模型持续高效地学习语义信息。

ERNIE升级为文心ERNIE之后在各类国家、国际学会奖项、竞赛上也收获颇丰。基于 ERNIE 2.0改进的模型就曾经在2019年12月登顶GLUE榜首,成为首个突破90大关的模型。除此之外,文心ERNIE还在2020年7月荣获2020世界人工智能大会最高荣誉SAIL奖,5月荣获《2020年度中国人工智能学会优秀科技成果》。同年3月,在全球规模最大的语义评测比赛SemEval 2020中,ERNIE斩获5项世界冠军。文心语言生成预训练模型ERNIE-GEN论文在2020年4月被人工智能顶级会议IJCAI录用,在5个生成类任务上均取得了SOTA效果。

百度文心在斩获各类奖项的同时,也落地多家企业,积极推动产业智能化升级。据了解,某互联网金融企业携手文心ERNIE,基于用户数据快速建模,高效评估借贷用户风险,同时结合文心的预训练模型,对用户行为信息进行语义层面深度建模,效率显著提升。某综合性电商平台使用EasyDL中的文心ERNIE搭建起了完整的智能评分系统平台架构。AI赋能后,平台服务考核监督机制得以升级,用户的差评反馈都会被自动分析处理,大大提升了服务效率与服务质量。

目前,文心ERNIE已广泛应用于百度搜索引擎、信息流、智能音箱等几十个产品。同时,文心ERNIE也通过百度大脑AI开放平台面向开发者和企业进行开放,已应用于金融、通信、教育、互联网等行业。可以说,有了这个“神兵利器”的技术加持,很多企业的智能化升级变得易如反掌。

对于“大侠”来说,拥有一把称心的兵器可以帮助他们闯荡江湖,但是对于普通开发者来说,这还远远不够。为了帮助更多人充分利用好这把利刃,百度文心ERNIE开放了文心平台和开发套件。不同于公有云的开发平台,“文心语义理解开发套件”是面向复杂产业需求的NLP本地端到端开发套件,能够在保障企业数据安全的同时,极大提升NLP开发效率和模型效果。应该说,为了帮助更多人体验武林高手的乐趣,百度文心ERNIE不仅制造了上等兵器,就连“武器说明书”也一并交出。

除此之外,百度近日还在文心官网重磅推出文心开发套件免费版,开发套件包含专业版与旗舰版。在专业版中,预置了大家期盼已久的文心ERNIE2.0预训练模型,面向专业的学术和产业开发需求提供语义理解能力。旗舰版则面向工业级应用场景,提供最全面的预训练模型库和算法集,并支持金融、媒体等场景化应用。

百度关于NLP的技术蓝图正通过技术升级与探索不断描绘着,在科技强国的响应下,还会有更多的人员、企业加入铸造AI的锋刃之中,共同指向智能时代更深远的洪流。

0 阅读:1