过去近半个月,中国AI模型DeepSeek在全球范围内掀起了激烈的讨论热潮,其带来的影响甚至促使美国OpenAI公司迅速推出新模型进行战略回应。北京时间2月1日凌晨,OpenAI CEO山姆·奥特曼(Sam Altman)在提前两周预告后,正式在ChatGPT和API服务中推出AI推理模型o3-mini。这款新模型展现出性能上的显著提升,响应速度相较于o1-mini提高了24%,答案准确性也同步增强。在用户使用层面,ChatGPT免费用户首次获得体验有限速率o3-mini版本的机会,速率限制与现有的GPT-4o相仿;Plus用户能够选择o3-mini-high这一更高智能版本;而每月支付200美元的Pro用户则可无限制使用o3-mini和o3-mini-high。从API层面来看,o3-mini输入价格为1.10美元/百万token、输出为4.40美元/百万token,与o1-mini相比,价格大幅降低了63%,较满血版o1更是便宜93%,不过仍约为GPT-4o mini的7倍。OpenAI强调,o3-mini的发布是其在追求高效能智能技术进程中的又一关键里程碑,通过优化科学、技术、工程和数学领域的推理能力,同时有效控制成本,让高质量的AI技术得以更广泛地普及。
然而,在过去一周,DeepSeek的两款开源AI模型R1和V3宛如两颗重磅炸弹,彻底颠覆了业界对于“尺度定律”(Scaling Law)的传统认知。这两款模型不仅展现出卓越的性能,更凭借不及OpenAI近1/20的算力成本,在AI领域引发了巨大的震动。这种降本增效的显著成果,不仅让OpenAI内部感受到了前所未有的压力,还促使华尔街重新审视AI公司在算力成本投入与AGI模型迭代之间的关系。受此影响,英伟达股价一夜之间暴跌17%,市值蒸发近6000亿美元。

[赞][赞]极致的成本控制与高效的训练成果
DeepSeek在成本控制与模型训练效率上展现出了惊人的优势。以DeepSeek V3模型为例,其整个训练过程在2048块英伟达H800 GPU集群上完成,仅耗时57天,总成本约557.6万美元,这一数字还不到其他顶尖模型训练成本的十分之一。而最新的开源多模态模型Janus-Pro-7B,使用256张英伟达A100 GPU卡训练14天即可完成,最小的10亿参数模型仅用128张英伟达A100训练7天,成本低至数千美金。如此高效的成本转化,使得DeepSeek能够以极小的投入获取强大的模型能力,在成本效益方面远远领先于众多竞争对手。
[赞][赞]前沿的技术创新与架构优化
在技术创新方面,DeepSeek在MoE(混合专家模型)架构算法以及系统软件层次进行了大量的创新性探索。清华大学计算机系长聘教授、高性能计算研究所所长、清程极智首席科学家翟季冬指出,DeepSeek的创新为行业提供了重要启示,即如何在有限的算力条件下,通过算法和软件的协同创新,充分挖掘硬件的极致性能。这种创新能力不仅提升了模型的性能表现,更为中国AI产业的未来发展指明了新的方向。
[赞][赞]独特的人才战略与团队建设
DeepSeek背后的幻方量化作为国内少数拥有数百亿管理规模的量化私募基金机构,拥有雄厚的资金实力,这使得DeepSeek在发展过程中既无需担心资金短缺,也无需依赖外部融资。在人才战略上,DeepSeek别具一格,目前其研发团队约有不到200名成员,所有人才均从中国本土招聘。团队选拔人才时,不侧重于过往资历,而是高度关注个人能力和求知欲,并为研发人员提供最高超过130万美元的年薪,这一薪资水平远超中国其他科技大厂以及“大模型六小虎”这类AI创业公司。这种独特的人才战略吸引了大量优秀人才,为DeepSeek的技术创新和发展提供了坚实的人才保障。

DeepSeek的模型性能在多个领域都有出色表现。以DeepSeek V3模型为例,作为6710亿参数的MoE架构模型,在多语言编程测试排行榜中,仅次于OpenAI o1大模型,展现出强大的实力。在数学和代码领域的测试中,其表现同样亮眼,MATH 500正确率达到90.2%,SWE-bench正确率为42.0% 。而Janus-Pro多模态大模型在GenEval和DPG-Bench基准测试中,成功击败了Stable Diffusion和OpenAI的DALL-E 3,进一步证明了DeepSeek在模型性能方面的卓越竞争力。
DeepSeek引发的广泛影响
[赞][赞]对AI行业格局的重塑
DeepSeek的横空出世,彻底打破了AI行业原有的竞争格局。其展现出的强大竞争力,让OpenAI等行业巨头感受到了前所未有的压力,迫使它们加快技术创新和产品迭代的步伐。o3-mini的推出,正是OpenAI在DeepSeek压力下的战略应对之举。同时,DeepSeek的成功也激励了更多的AI企业投身于技术创新和成本优化的探索中,推动整个行业朝着更加高效、低成本的方向发展。
[赞][赞]对算力市场与投资理念的冲击
DeepSeek以极低的算力成本实现了卓越的模型性能,这一成果对算力市场和投资理念产生了巨大的冲击。华尔街开始重新评估AI公司在算力成本投入上的策略,质疑是否必须通过大规模的算力成本投入才能实现AGI模型的迭代。英伟达股价的暴跌,正是市场对这一变化的直接反应。这一事件促使整个行业重新审视算力与模型发展之间的关系,推动算力市场朝着更加合理、高效的方向发展。
[赞][赞]引发国际技术竞争与政策博弈
DeepSeek的技术突破引发了国际间的技术竞争和政策博弈。美国政府和企业对DeepSeek表现出了高度的关注和警惕,微软和OpenAI已开始调查DeepSeek是否采用其模型数据。美国总统特朗普发出警告,称DeepSeek为美国科技行业敲响了警钟,并要求持续限制对华AI半导体出口。美国商务部和议员也纷纷要求对DeepSeek展开调查,并加强半导体出口管制。而Anthropic首席执行官Dario Amodei则表示,DeepSeek的突破正在倒逼美国重新评估技术封锁政策的有效性。这一系列事件表明,DeepSeek的发展已经成为国际技术竞争和政策博弈的焦点,对全球AI技术发展的政策环境产生了深远的影响。
[赞][赞]为中国AI产业带来信心与机遇
DeepSeek无疑是中国AI产业发展历程中的一个重要里程碑。其成功充分证明了中国企业在AI领域的技术创新能力和发展潜力,为中国AI产业在全球竞争中赢得了重要的话语权。中欧国际工商学院决策科学与管理信息系统教授谭寅亮指出,DeepSeek的成功表明中国企业在AI应用层面和用户体验上具有强大的创新能力,尤其是在产品快速迭代和市场化方面更具优势。这不仅为中国AI企业在全球市场竞争中提供了重要的信心支撑,也为中国AI产业的进一步发展带来了新的机遇。
在当前复杂的国际竞争环境下,DeepSeek的发展无疑为中美AI竞争增添了新的变数。无论未来的竞争格局如何变化,DeepSeek都已经在AI发展史上留下了浓墨重彩的一笔,其带来的影响也将持续推动全球AI技术的不断进步和创新。