大模型时代进入尾声：场景式模型接棒

文/彭艺信

编辑/侯煜

ChatGPT像里科技行业里的鲇鱼，搅动一池春水。自从它出现之后，中国科技企业扎堆发布AI大模型。

有人嘲讽，ChatGPT在中国即将“亩产过万”；也有人调侃，下个阶段该是“全民大模型，ChatGPT进万家”了吧；还有人直言，ChatGPT是十月怀胎，中国大模型一个月成型。

中国大模型为何能飞速成型？究竟是养在深闺人未识，还是跟风造概念？阿里云CTO周靖人说过，动辄超千亿参数的大模型研发，不是单一的算法问题，也不是靠简单堆积GPU就能实现的。大模型是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程，需要AI-云计算的全栈技术能力。

在当下增长乏力的科技互联网产业生态中，互联网企业把大模型当做救命草。不过，尽管市场火热，但潮退后才能见识真实力。

中国科技圈，大模型的大跃进如火如荼，但在本月初， OpenAI 的 CEO 在演讲中警告称：我们已经处在大模型时代的尾声，并表示如今的生成式AI （AIGC ）发展中，将数据模型进一步做大，塞进更多数据的方式，已经是目前人工智能发展中最后一项重大进展，并且还声称目前还不清楚未来的发展方向如何。

可以预言的是，当下大模型技术对于 AIGC 的发展至关重要，但从长远来讲，AI 的发展绝不会永远依赖大模型的参数提升和算力的堆砌。未来，针对更具体的应用场景，开发更小更精准、针对应用场景的模型才是发展的方向。

本文将盘点目前市场上呼声较高的大模型，中国大模型究竟是昙花一现，还是千锤百炼不断精进，让我们持续关注。

OpenAI

2021年11月，OpenAI推出了GPT3.0。它是运用1759亿个参数所实现的预训练语言模型。去年年底ChatGPT问世，该系统发布后五天内就吸引了超过100万用户。

ChatGPT是人工智能技术驱动的自然语言处理工具，其使用的人类反馈的强化学习技术，可以更容易推断出用户的意图，产生更自然和更合理的回答，像人类一样来聊天交流，完成撰写视频脚本、文案、代码、论文等任务。

今年2月OpenAl投资人微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing（必应）和Edge浏览器，到今年3月15日，OpenAI推出GPT-4文本生成AI系统，但仅向Plus付费订阅用户及企业和开发者开放。

OpenAI公布的训练GPT模型由于训练过程复杂，数据不透明，加上长期的技术迭代等，其在算法层和硬件层积累起巨大优势，外界想要复制ChatGPT并不容易，ChatGPT目前在大模型领域的霸主地位无人能够撼动，OpenAI市场估值已经达到290亿美元，成为世界上估值最高的初创公司。

现在的ChatGPT面对的不只是商业化和监管的压力，由马斯克、图灵奖得主Bengio等千人联名的“暂停高级AI研发”的公开信，目前签名数量已有9000多人，此外，它也受到越来越多的国家的抵制，在其出现的两个月后，意大利就宣布禁止使用ChatGPT，原因是认为ChatGPT平台不安全并且会非法收集大量用户信息。

特点：可以直接面向C端用户群体。

参数量大：ChatGPT-3模型使用了1750亿个参数， ChatGPT-4的参数量更大，

迭代快：OpenAI在原本官网产品下拉菜单中的ChatGPT已换成了GPT-4。

百度“文心一言”大模型

作为国内人工智能（AI）领域的旗手，今年3月，百度就推出直接对标ChatGPT的文心一言。

文心一言也拥有文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成的能力。百度文心一言的发布会后一小时内，排队申请文心一言企业版 API 调用服务测试的企业用户超 3 万家，申请产品测试网页多次被挤爆。

根据后期大量试用的反馈，文心一言也暴露出通过模式和规则来生成文本等问题，对比之下，业界出现了“百度抢占大模型市场的心态操之过急”的看法，也让大家看到了国内外自然语言处理大模型方面的差距。

事实上百度在大模型领域沉淀已久，百度早在2019年就推出了文心大模型ERNIE 1.0，而目前，ERNIE 3.0每天接受数十亿用户的搜索请求。文心一言会基于飞桨深度学习平台和文心知识增强大模型，持续从海量数据和大规模知识中融合学习，具有知识增强、检索增强和对话增强的技术特色。

已有650家企业伙伴加入文心一言生态，包括小度和自动驾驶Apollo等产品，以及爱奇艺等公司也已经接入百度的文心一言模型。

特点：拥有三级大模型技术体系

形成了“基础-任务-行业”三级大模型技术体系，拥有NLP、计算机视觉（CV）、跨模态等基础大模型，以及对话、跨语言、搜索等任务大模型，还有生物计算领域大模型、各行业大模型及支撑大模型应用的工具平台。

阿里通义大模型

4月11日，阿里云智能首席技术官周靖人在阿里云峰会上正式官宣阿里巴巴“通义千问”。

打开通义千问，是一个聊天对话框，与竞品相似，通义千问在作为“问答机器人”基础上还新增了图片生成应用功能，通过拍照上传一张功能草图，便可以自动生成低代码业务应用。

实际上，早在2022年9月阿里巴巴达摩院就发布了“通义”大模型，打造了国内首个AI统一底座，并且通义M6使用的参数规模超过了ChatGPT，是全球参数规模最大的AI模型。

去年11月阿里还正式提出“Model as a Service”理念，牵头搭建了国内规模最大的AI模型服务社区“魔塔”，公布的数据显示，魔塔社区目前已有超100万活跃用户，模型累计下载次数超1600万，模型总数达800个，与十几个顶尖人工智能机构合作。

接下来，阿里所有App，包括天猫、淘宝、钉钉等未来都会接入通义千问，进行全面改造。

通义大模型更偏向为B端服务，周靖人在峰会上强调，未来每一个企业在阿里云上既可以调用“通义千问”的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型。在2022年阿里就将AI应用于电力调度，联合电网研发出高精度电网负荷预测模型，现已在山东德州落地。

特点：服务B端、瞄准企业客户

商汤“日日新大模型”

在4月10日的商汤技术交流日活动上，商汤“日日新SenseNova”大模型体系正式问世，作为中文大模型，其包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力，商汤还公布了基于该体系的AI内容生成式平台——包括秒画、如影、琼宇、格物等。

目前商汤在AI领域的投入规模已经超过百亿，商汤已打造CV（计算机视觉）、NLP（自然语言处理）、AIGC（人工智能内容生成）多个AI大模型，历时五年，商汤一直秉持“模型重在能力而非规模”的看法，在2019年于上海临港建设的商汤人工智能计算中心，共有5000Ｐ算力，大装置拥有2.7万块GPU芯片卡，实现自供算力以训练大模型。

商汤也发布了自研类ChatGPT产品“商量”，作为千亿级参数的自然语言处理模型，其能够提供以下功能：编程助手，帮助开发者编写和调试代码；健康咨询助手，为用户提供个性化的医疗建议；PDF文件阅读助手，能轻松从复杂文档中提取和概括信息等能力，商汤科技联合创始人王晓刚则表示“商量”大模型未来主要面向To B端。

此外商汤的大模型研发体系在多种行业场景中落地，比如为政企客户提供包括视觉感知通用任务与标注服务等多种灵活的API接口和服务，客户根据实际应用需求调用大模型的各种AI技术能力。“日日新SenseNova”应用在智能驾驶领域，实现了可识别3000类物体的BEV环视通用感知算法的实车量产，也构建了感知决策一体化的自动驾驶多模态模型，能够给环境、行为、动机解码能力带来突破。

特点：场景式大模型，关注具体的使用场景

世良情感网

大模型时代进入尾声：场景式模型接棒

华尔街科技眼