NLP高速赛：微软、谷歌齐上阵，百度文心ERNIE持续领先！

在人工智能的世界里，“自然语言处理（NLP）”技术已发展多年。而作为其重要组成部分之一的预训练模型更是多年“训练”一朝成名，铸就了人工智能算法模型“武器库”中的诸多利器。今天我们就从众多NLP预训练模型“武器库”中，盘盘这些给众人留下印象深刻的模型，而代表中国利刃的百度文心ERINE，又将如何从微软、谷歌等的“武器”中脱颖而出？

首当其冲的是在经典里独孤求败的“玄铁剑”。谷歌BERT模型如同杨过获得的那把来自“剑魔”独孤求败的玄铁重剑，只要增加一个输出层就可以进行调整，以适应更广泛的新任务。正可谓是重剑无锋，大巧不工。紧接着登场的是“鸳鸯剑”XLNet，XLNet是一个双向特征表示的自回归模型，他能够发现两个实体之间的关联情况。还有Facebook的RoBERTa模型，其在BERT的基础上进行了再训练，架势堪比“倚天一出，谁与争锋”，不仅独辟蹊径的改进了训练方法，还增加了数据，强化了计算能力。这些兵器都是AI“侠客”们的“最佳拍档”。但是为“天下武学”兵器造册排行，还是要看作为“武器库”排行榜的——GLUE（通用语言理解评估基准）榜单。

据介绍，作为自然语言处理领域权威排行榜的GLUE，是由纽约大学、华盛顿大学、谷歌DeepMind等机构联合推出，以涵盖大量不同类型的NLP任务，成为衡量自然语言处理研究进展的行业标准。在最新更新的这份“兵器谱”上，百度自研的语义理解框架文心ERNIE拔得头筹，以90.9的成绩获得冠军。

回头来看文心ERNIE一步步的“锻造史”也是不断展露锋芒。文心ERNIE的技术积累可追溯于2013年百度提出的神经网络语义匹配技术，基于深厚的技术积累，百度于2019年3月发布并开源知识增强的预训练模型ERNIE1.0，模型在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等各类中文任务上的效果超越了当时风头正盛的BERT。同年7月，百度升级发布持续学习的语义理解框架ERNIE2.0，在16个中英文任务上超越了BERT和XLNet，取得了SOTA效果。整体来看，ERNIE 2.0不仅完成了一次记录刷新表演，同时通过不断引入新的预训练任务，帮助模型持续高效地学习语义信息。

ERNIE升级为文心ERNIE之后在各类国家、国际学会奖项、竞赛上也收获颇丰。基于 ERNIE 2.0改进的模型就曾经在2019年12月登顶GLUE榜首，成为首个突破90大关的模型。除此之外，文心ERNIE还在2020年7月荣获2020世界人工智能大会最高荣誉SAIL奖，5月荣获《2020年度中国人工智能学会优秀科技成果》。同年3月，在全球规模最大的语义评测比赛SemEval 2020中，ERNIE斩获5项世界冠军。文心语言生成预训练模型ERNIE-GEN论文在2020年4月被人工智能顶级会议IJCAI录用，在5个生成类任务上均取得了SOTA效果。

百度文心在斩获各类奖项的同时，也落地多家企业，积极推动产业智能化升级。据了解，某互联网金融企业携手文心ERNIE，基于用户数据快速建模，高效评估借贷用户风险，同时结合文心的预训练模型，对用户行为信息进行语义层面深度建模，效率显著提升。某综合性电商平台使用EasyDL中的文心ERNIE搭建起了完整的智能评分系统平台架构。AI赋能后，平台服务考核监督机制得以升级，用户的差评反馈都会被自动分析处理，大大提升了服务效率与服务质量。

目前，文心ERNIE已广泛应用于百度搜索引擎、信息流、智能音箱等几十个产品。同时，文心ERNIE也通过百度大脑AI开放平台面向开发者和企业进行开放，已应用于金融、通信、教育、互联网等行业。可以说，有了这个“神兵利器”的技术加持，很多企业的智能化升级变得易如反掌。

对于“大侠”来说，拥有一把称心的兵器可以帮助他们闯荡江湖，但是对于普通开发者来说，这还远远不够。为了帮助更多人充分利用好这把利刃，百度文心ERNIE开放了文心平台和开发套件。不同于公有云的开发平台，“文心语义理解开发套件”是面向复杂产业需求的NLP本地端到端开发套件，能够在保障企业数据安全的同时，极大提升NLP开发效率和模型效果。应该说，为了帮助更多人体验武林高手的乐趣，百度文心ERNIE不仅制造了上等兵器，就连“武器说明书”也一并交出。

除此之外，百度近日还在文心官网重磅推出文心开发套件免费版，开发套件包含专业版与旗舰版。在专业版中，预置了大家期盼已久的文心ERNIE2.0预训练模型，面向专业的学术和产业开发需求提供语义理解能力。旗舰版则面向工业级应用场景，提供最全面的预训练模型库和算法集，并支持金融、媒体等场景化应用。

百度关于NLP的技术蓝图正通过技术升级与探索不断描绘着，在科技强国的响应下，还会有更多的人员、企业加入铸造AI的锋刃之中，共同指向智能时代更深远的洪流。