蒲慕明院士：对DeepSeek突破的批判和反思

2025年将是近几十年来中国科学最难忘的年份之一。1月20日，杭州一家小型人工智能公司DeepSeek宣布了一款极其高效的“推理”人工智能模型DeepSeek R1，在全球范围内引起了轰动，一些爱好者称之为“人工智能革命”。这一震惊源于DeepSeek R1与大型科技公司生产的顶级大型语言模型（如ChatGPT-o1）相媲美，但R1的基础大型语言模型V3（几周前宣布）的构建成本仅为当前顶级大型语言模型的一小部分，且使用的低级计算机芯片（GPU）数量也少得多。最值得注意的是，DeepSeek的模型是开源的，完整披露了技术细节，并且对人工智能开发者的收费远低于市场上的其他闭源大型语言模型。

随着震惊逐渐平息，我们可以反思DeepSeek突破的真正意义。

DeepSeek R1非常巧妙地利用了现有的网络工具，如专家混合、强化学习和数据蒸馏，实现了完全出乎意料的推理效率。它首次向用户展示了其推理过程的“思维链”。然而，R1并没有像反向传播算法和变压器网络那样带来新的突破性人工智能技术发明，这两种技术分别引发了最近的两次人工智能革命——深度学习和大型语言模型。用通俗的话来说，这并不是从0到1的发明，而是以空前的速度从1到100的发展。这一速度宣告了人工通用智能（AGI）即将到来——机器的自我学习和泛化能力，能够在复杂环境中执行各种任务，其智能水平甚至超过人类智能。重要的是，DeepSeek清楚地表明，从1到100的发展可能比从0到1的发明具有更大的影响。

DeepSeek的大型语言模型出现在人工智能界普遍信服规模定律的时候，即人工智能模型的性能随着模型规模、数据集和计算能力的增加而提高。尽管有一些证据表明这一规律正接近其极限，但美国和中国的许多科技巨头仍在要求投资者和政府支持越来越大且能源消耗不可持续的数据中心。许多大型数据中心正在建设中，美国总统刚刚宣布了5000亿美元的支持。DeepSeek R1强烈表明，改进计算算法的效率可能比坚持规模定律更具吸引力。

正如美国总统特朗普所言，DeepSeek的“警钟”不仅在于中国人工智能技术在“中美”人工智能竞赛中迅速追赶，而且也是对全球人工智能界的一个呼吁，即人工智能的未来并不只掌握在少数科技巨头手中。小型研究团队在推动人工智能前沿方面可以发挥重要作用。人工智能技术的“民主化”或许是DeepSeek最显著的突破。

DeepSeek也给中国研究机构敲响了警钟，这些机构获得了大量政府资金用于人工智能研究，并雇佣了绝大多数中国人工智能研究人才。尽管近年来中国人工智能研究人员发表的研究论文数量惊人的增加，但在人工智能领域真正有影响力的重大发现或发明仍然稀缺，快速发表增量价值论文的文化盛行。DeepSeek的领导者梁文峰学术资历并不显赫，也很少被邀请在人工智能学术会议上发言，但他有信心和胆量去解决开发AGI的最重要问题。这一警钟对中国年轻科学家和工程师来说既是警醒也是鼓舞，他们渴望在世界上有所作为。

DeepSeek创新文化的关键，正如梁文峰最近解释的那样，是培养他的研究团队的信心和自下而上的主动性。像DeepSeek这样的小团队在快速闭环互动、朝着既定目标的凝聚努力以及团队成员的精神纽带方面更有效率。大多数中国机构几乎没有为层级结构底层的年轻人留出空间去追求自己的想法。例如，支持极具天赋的应届博士生设立独立研究实验室而无需进行博士后训练，这在麻省理工学院怀特黑德研究员项目和中国科学院神经科学研究所青年研究员项目的成功案例中得到了体现。

尽管DeepSeek的突破具有创新性，但仍处于目前主导人工智能领域的大型语言模型的框架内。随着对计算能力的需求达到极限，大型语言模型的进一步发展将取决于更高效的计算算法和网络结构。大多数人工智能研究人员现在很少关注大脑的工作原理，因为大型语言模型在许多方面似乎比人脑强大得多，且大型语言模型的应用机会众多。然而，随着AGI成为一个更接近的目标，我们可能需要更认真地研究大脑如何实现高效的计算，以及人类智能是如何体现在一个能够与外部世界有效互动的系统中的。

在类人机器人等物理系统中开发具身AGI需要软件工程师、生物工程师和神经科学家之间的密切跨学科互动。任务似乎很明确：基于语言的推理和决策大型语言模型需要在输入端与多种感官信号的综合感知（包括基于语言的指令）相连接，在输出端与执行行为的复杂运动系统相连接。

中国脑计划第二阶段的五年计划，即2030年重大科技项目“脑科学与脑启发技术”，目前正在规划中。在未来五年内，我们期待看到神经科学家和人工智能研究人员之间的密切互动，以实现不仅达到人类智能水平而且符合人类需求的具身AGI。

作者：蒲慕明院士，《国家科学评论》主编、中国科学院脑科学与智能技术卓越创新中心神经科学研究所科学主任

参考文献：[1] Xu B，Poo M-M. Large Language Models and Brain-inspired General Intelligence,Nat. Sci. Rev. 10: nwad267, 2023 https://doi.org/10.1093/nsr/nwad267

来源｜brainnews

编辑｜易飞扬

审核｜于丽水