什么是中国AI赶超的正确姿势？

导语：

ChatGPT像一面镜子，照出了中国AI发展的成就与不足。在AI前沿领域，必须承认，我们目前还不具备碾压式的实力，但我们有足够的决心、投资能力和互联网产业基础。尽管如此，AI产业的核心突破，需要的人才、资源、资金的门槛之高，也决定了，其如果需要在中国做出世界级的创新，一则还是要靠举国体制，另外也要协同一批龙头企业的共同努力。AI的竞争不止有技术流打法，也有产品流、产业流的打法。唯独重要的是，我们不能放弃，我们必须虽千万人吾往矣。

从一个研究者的视角，腾讯值得关注。它的用户基数、丰富场景、基础技术投资，以及过去十年可能是最好的中文语料资源积累、多模态应用的广度等，决定了它是一个有机会在AI领域做出核心突破的潜力企业。因此，笔者也进行了一番深度调研，其中的若干感悟和结论，或许能给大家了解中国AI行业现在和未来，带来一些启发和触动。1、场景优先ChatGPT4的发布，以及国内厂商的跟进，让这个概念更火了。其实读者关心的问题不仅仅是中国能不能做出类ChatGPT的项目（因为假以时日，肯定能），大家关心的可能是，什么时候轮到我们领先和主导下一轮？在原理透明的前提下，问题的底层逻辑是，谁拥有优质的训练数据集，谁就是赶超的关键先生。那些拥有自己闭环生态的企业明显具有先天优势，海外科学家指出，ChatGPT训练所需要的高质量数据集，通常有这样几类——50%的用户生成内容、20%的书籍、10%的科学论文、近10%的代码和近10%的新闻。无论在哪个数据集里，用户生成内容（UGC）的数量占比都是最大的，放到国内来看，可以看出腾讯优势相对明显。举个例子，腾讯的微信公众号是国内优质长内容的关键载体，富集了过去10年最有创造力的创作者提供的内容。同时，大量的音视频内容和技术，也是腾讯发展多模态的优势。但腾讯的优势是否能转为胜势呢？这是我们此文重点要讨论的，就是腾讯的AI底蕴究竟如何。也许我们可以试图回溯一下，腾讯的AI发展从何而来。2012年，QQ用户突破1.6亿，在腾讯上下为之欢腾的时候，微信又以闪电般的速度，在这一年的9月实现了用户规模突破2亿。一年之内，腾讯就有了两个亿万级用户规模的强场景，这既是AI发展的土壤，也是对年轻研究人员的压力。也是这一年，腾讯优图实验室成立，这是腾讯内部最早开始专注AI研究的实验室之一。

优图实验室创始团队，在PC互联网时代，曾经做出过过一款看图软件产品——QQ影像。但没过几年，伴随移动互联网到来，产品和技术团队进入了瓶颈期。据腾讯云副总裁、腾讯云智能研发负责人、优图实验室研发负责人吴永坚回忆，团队最初是带着一种颇为沮丧的心情，主动“求变”的。他们的计划是，围绕原来在PC端积累的图像能力，去移动端做些技术新尝试。当时，他们关注到一种无损图像处理的算法。在没有外部支持的情况下，五人团队仅用三个月就做出了新算法，他们把这种能力应用在腾讯旗下的业务，使商品详情页图片加载速度提升50%以上。对优图实验室来说，这是一个重要转折点，吴永坚意识到：”我们之前都是纯做应用的，后来发现产品的应用发展可能会起起伏伏，但支撑应用的底层技术永远是越先进越好，我们就把关注重心转移到技术能力建设上。让我们的研发离应用只有一代的差距，最后我们选择了一个词叫‘预研’。”任何时候，技术只有落在实际场景中才能验证效果。当时，吴运声（优图实验室负责人）提出，如果优图要做图像（技术），就要和腾讯内部图像需求最多、最复杂的团队去接触，因为需求越大，技术可挖掘的价值就越大。思路一通，灵感就来。基于QQ空间的图像场景，优图实验室做出了一系列创新，包括图像显著性内容检测，也就是自动找出图片中最能代表图像的区域。在同一个阶段，深度学习的浪潮起来了。图像技术与深度学习汇合，促使优图实验室正式进入图像理解的领域，也就是基础的视觉AI的算法研发。这时候，又一个新的需求产生了。微众银行，一个完全没有线下实体的互联网银行，带来了一个世界级难题——活体检测。现在，基本上所有对安全性要求高的APP，都有一个视频验证身份的过程。但在2013年的时候，这方面的技术还很不成熟，一些常规的检验如摇头、眨眼等，都有被作假的几率。“后来我们想了一个方法，就是给出一串数字，让用户读出来。这样，我们就有了视频+音频+图像三种模式交叉验证”，吴永坚说：“后来想想，优图实验室的AI进入多模态的研究方向，也就是这一个瞬间启发的。后来，我们还研发了背景变色闪光的验证方法，这个技术在当时可以说是世界级的，现在还是业界主流的验证方法。”这个案例证明了，腾讯从C端业务中积累的AI能力，同样可以解决B端的需求，局面打开了。风也起来了，2016年，随着AlphaGo战胜人类棋手，一股AI热席卷全球，与今天ChatGPT带来的冲击颇为类似。而腾讯也开始加速规模化、矩阵式布局AI研发。2016年4月，AI Lab成立，专注于AI基础研究和应用探索的结合。

一个标志性的事件是——2017年8月，腾讯发布首款将人工智能技术运用在医学领域的AI产品腾讯觅影。这个项目彻底击穿了部门墙，聚合了腾讯公司内部包括AI Lab、优图实验室、架构平台部等多个顶尖人工智能团队的能力。这不仅促使腾讯成为影像领域的国家新一代人工智能开放创新平台，也成为腾讯AI崛起的标志性事件。写到这里，笔者突然想起了英国物理学会会士、深圳两化融合首席科学家马兆远说过的一番话，他说——“推动世界的绝大多数进步，首先是解决了工程问题。好的科学家应该是工程师，好的工程师也应该是科学家。而在实践中，科学是第二性的，工程才是第一性的”。2、算法产品化2019世界人工智能大会上，腾讯公司董事会主席兼CEO马化腾表示：腾讯已建立四大AI实验室，涵盖AI从全面基础研究到多种应用开发，将打造面向未来的“科技引擎”。而应用开发的产业化、商业化落地，是其中关键一环，也是当前整个AI领域尚未较好破解的一道难关。另一方面，追求高质量发展、促进产业升级转型，是中国产业互联网技术领域历来的关注焦点。这其中，AI如何参与？腾讯给出的答案是，发布云智能，更强调云与人工智能的融合深度，以AI作为产业互联网时代的数据“中央处理器”，释放数字化能力。从场景出发，是这条路得以跑通的底层逻辑。例如，中国是世界上工业门类最齐全的国家，用AI解决工业质检需求正是其中一个典型场景。手机摄像头支架，听起来似乎没啥科技感；但如果我告诉你，富驰高科是一家金属粉末注射成型(MIM)产品专业制造商，是不是就高大上很多？手机摄像头支架看似简单，但形状不规则且只有手指头大小，需要检测的点位高达七八十个。算笔账你可能觉得更直观，由于富驰高科每年生产的零部件数亿个，仅质检人员就需要超1500人。质检人员需要聚精会神，才能完成这种精细质检，且因为疲劳往往容易导致漏检错检。

2021年，腾讯云开始用AI能力给富驰高科解决手机零部件质检难题。当时，腾讯云采用TNN深度学习推理框架，借助算法模型加速和智能调度等多种技术能力，从工程化上实现了性能优化；算法方面，则创造性的设计了光度立体成像解决方案，克服了MIM产品因高反光特性而导致的产品缺陷与正常反光混淆的行业难题。最终的结果是，基于这套解决方案，富驰高科单台质检仪的工作效率是原来人工的10倍。解决一个从未被破解的行业难题，自然需要投入大量算法工程师。但每个方案都采用重人力的模式，不可持续。由此，在过去的两年里，腾讯一直探索“算法产品化”的方式，即拆解算法里的每一个流程，精细到每一步明确要做什么，然后将其沉淀到腾讯云TI平台上，最终形成了一个面向工业质检场景的产品化平台——工业质检训练平台TI-AOI。现在，面对同样的工业质检场景，腾讯只需在项目前期派少量算法人员过去，其余大部分工作都可以在TI平台上完成，效率提高，加速了AI技术在工业场景的落地。而未来的进阶方向是——腾讯甚至都不用派工程师到场，这项工作就可以由企业自己的运营人员完成，并且他们不需要有很强的算法背景。这样做更大的价值还在于，拉低应用门槛，进一步推动AI普惠。传统制造业是产业智能化升级的主体，但一般的制造业企业没有研发AI算法，甚至没有应用AI算法的能力。腾讯的工业质检训练平台为企业找到了一个限制更少，门槛更低的方案。即便不懂AI算法，工厂技术人员依然可以用平台进行缺陷标注，让算法根据零件质检需求自动跑起来。对腾讯而言，一路积累下来的能力可以复用于其它类似场景，下一个项目也不会再用6个月时间了，这为腾讯AI在这一领域加速布局打开局面。为富驰高科服务的腾讯云TI平台是腾讯云智能的体系的核心产品之一，还有我们熟悉的数字人，或称数智人。数字人和我们前文叙及的ChatGPT有密切的联系，某种程度上，数字人也是生成式AI的一种载体，是AIGC的一部分。例如，短视频制作已经是一个庞大的行业，但其上限是内容生产成品太高、效率较低。腾讯云智能有一款2D数智人，可以实现依靠3分钟真人录制视频，就生成一个数字人形象，后期则通过文字输入就能生成视频内容，大大降低了视频录制成本、修改成本，最终是降低了短视频内容制作的准入门槛，为丰富内容生态贡献很大。技术含量更高的3D虚拟主播，也因为AI，而有了更多展现形式。例如经常在电视上看到的手语主播，需要通过细微的手部动作来展示内容，现在通过AI已经可以实现文字、语音直接转手语。2022年初，腾讯AI手语数智人”聆语“诞生，成为首位服务于国际赛事直播解说的数字人，支持实时生成手语，可懂度 90% 以上，而一般比较熟练的真人解说员的手语可懂率不过是60%-70%。但在加入AI以前，用数字人来完成这类操作是很难想象的。从数字人到数智人，腾讯云智能数智人的背后是新一代的多模态人机交互系统，可以让虚拟人物拥有超细微面部情感表情以及数百种肢体动作，并且通过自动化的播报平台、交互平台，打通形象生产到内容生产的全链路背后的背后，是腾讯积累多年的语音交互、自然语言理解、图像识别等AI能力的充分整合。腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声总结说：腾讯云智能要做的就是整合腾讯的技术优势和行业经验，从而打磨出更多优秀的产品和服务模式，助力产业数字化转型。在对诸多案例的探寻中，笔者一直在思考的是，为什么腾讯AI的产业化、商业化落地效率更高，也更受到实际用户的青睐？现在看来，腾讯的AI研发一直带有产品化的思维，对目标用户需求和痛点考虑的更为周全、具体，这是腾讯原生的DNA在赋能；另一方面，在云计算、大数据方面的领先性，让腾讯AI有很好的底层支撑和综合竞争力。3、飞轮效应腾讯AI的产业实践，让我们看到了一种中国本土AI的赶超模式，我姑且称为”闭环效应“叠加”飞轮效应“的”双环组合“。首先是闭环，研发-赋能-落地-反馈-人才，可谓缺一不可，但把这五个要素形成一个闭环，难度更大。但如前所述，腾讯云智能的打造，已经促进了这一闭环的形成，通过聚合腾讯优图实验室、腾讯AI Lab等腾讯顶级实验室的技术能力、产品能力以及多年的实践经验，输出从底层算力支撑到 AI 开发平台、到 AI 产品解决方案、再到顶层数智化转型方法的四级全链条服务，就是其具体体现。现在更急切的任务是，如何让这个飞轮转起来，形成Flywheel Effect（飞轮效应）。这其中，四个“关键引擎”缺一不可。第一个引擎，是强大的云计算、大数据底蕴。大家都知道，OpenAI能够取得成功的一点，是微软基于云计算能力，为其打造了一台超级计算机，将数以万计的 Nvidia A100 GPU 和 Azure 云计算平台串联在一起，能以高吞吐量、低延迟网络来使用这些算力。在这个层面，腾讯云针对类似的训练、推理、测试及优化场景，能够点对点提供最佳的匹配方案和产品。特别是在大模型训练场景，结合了腾讯自研的软硬件技术，为腾讯云AI计算、高性能计算需求提供算力底座。基础层将裸金属云服务器作为节点，满配最新代次的GPU，节点之间通过RDMA网络互联，提供高性能、高带宽和低延迟的算力。第二个引擎，是大模型的能力。行业里一直围绕大模型或小模型，大数据或小数据有争论，但ChatGPT的问世，决定了至少是在今后3年，大模型是更主流的方向。打造大模型是极其艰难的，但为其后的泛化提供了保证。就好像如果你编了一本《汉语大字典》，那么再编一本《中学生字典》就很简单；相反你想编一本《小学生词典》，但手头没有《汉语大字典》做母本，一切也得从0到1来过。腾讯很低调，但不意味着其在大模型领域落后，相反，腾讯打造的混元AI大模型，其完整覆盖NLP（自然语言处理）、CV（计算机视觉）、多模态等基础模型和众多行业/领域模型，已先后在中文语言理解权威评测集合CLUE 与 VCR、MSR-VTT，MSVD等多个权威多模态数据集榜单中登顶，实现跨模态领域的大满贯。值得一提的是，近期混元AI大模型团队推出了业界最大的万亿中文NLP预训练模型HunYuan-NLP-1T，再次打破CLUE三大榜单记录，实现在中文语理解能力上的新突破。第三个引擎，叫长期的基础技术积累。基础技术积累对于产品导向型的公司，是一个发展悖论。但以产品为名的腾讯，从2015年后，开始倾力于基础技术的研发突破。微软对OpenAI的投入超过百亿美金，所以，最简单的一个评价标准是——你愿意为基础研发花多少钱？笔者看到的数据是，自2015年至2021年，腾讯的研发投入从90亿增加到519亿，增量达4.8倍，是国内增速最快的科技企业。其中，2021年腾讯研发投入达到518.8亿元，较2018年实现翻番，研发人员数量同比增长41%，新增研发项目超6000个。2019-2021年，腾讯三年累计研发投入已经超过1200亿元，年均增速超过30%。早在2019年，腾讯在全球主要国家的专利申请数量已超过30000件，授权专利数量超过10000件。专利申请数量在国内互联网公司中排名第一，在全球互联网公司中排名第二，仅次于谷歌。第四个引擎，叫基于反馈的人才培养。任何一个产业都需要在无数次反馈中获取进步。人们对科学家的要求可能是千分之一的成功率，但对产品的要求是千分之一的失败率。两个千分之一中间，有着漫长的过程。但正是因为腾讯AI凭借各种形式进入千行百业，就为继续创造、探索和不断改进，提供了可能性。虽然，每一步改进都意味着大量的选择和优化，但这是有助于打造在实践中大量开发经验和工程训练积累而成的能力。如果说科学精神是从无到有的探索，那工程精神就是“日拱一卒”的坚持。在笔者看来，除了以上叙及的方方面面，腾讯AI体系的一大成就，是培养了一批了解科学、懂得技术，并能把构想和创意造出来的新型工作者。他们在某种程度上，已经不符合对工程师的传统定义，而是一批能够掌握把握企业需求，然后落地成产品、把科学转化为生产力的高技能人才。他们中的一部分将继续成为更高级的工程技术人才，也有一小部分会在研发中总结规律，向科学家、基础研发者的角色发展。但毫无疑问，拥有来自实践的丰富反馈，以及由此培养出的大批人才，最终帮我们画完了腾讯AI体系的闭环。而顺便值得一提的是，腾讯还拥有丰富的多模态内容、复杂的场景与大量的需求，这些也都是催发创新、打磨技术的最佳实践环境。但问题的关键是，不是所有条件的具足，就自动能够把“能力”变成“成绩”，世上最难的事，就是通过无数次与不确定性的博弈，把现实变成最大的确定性。虽然腾讯AI已经在数十、数百个行业中落地，但有待去探索的产业和领域却是成千上万，它们的需求、场景和痛点，是中国AI技术发展的丰厚土壤。以如此宏阔的未来图景，我们相信包括腾讯在内的科技企业将有更大的作为，当他们进入全球的AI领导者行业之一，我们再为其加冕，似乎是一个更好的选择。

世良情感网

胡说成理