春节期间,硅谷的讨论热火朝天。
这次不是因为某个新款电子产品,而是因为一个来自中国的AI模型——DeepSeek。
这款 AI 模型以惊人的效率和低成本震惊了全球的科技圈,甚至一度导致了英伟达的股价暴跌。
这背后究竟隐藏着什么样的故事,又引发了哪些争议?
让我们一探究竟。
DeepSeek的技术革新:从V2到V3的进步详解DeepSeek的技术革新,可以说是这次震动的核心。
DeepSeek团队在2024年12月底发布了6700亿参数的大语言基础模型DeepSeek V3,并且在2025年1月20日开源了基于V3的两款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。
仅仅一周后,他们又推出了开源多模态模型Janus。
那这意味着什么呢?
DeepSeek不仅在技术层面实现了突破,还在成本上打了个漂亮的翻身仗。
DeepSeek V3模型的训练耗时为278.8万个H800 GPU小时,按照每GPU小时2美元的租赁成本计算,总共只需要557.6万美元。
想象一下,这种效率和成本让大名鼎鼎的OpenAI和英伟达不得不重新审视自己的技术。
DeepSeek团队在基础模型V3架构上的创新主要体现在两个方面:混合专家结构(MoE)和多头潜在注意力机制(MLA)。
MoE让模型能够通过动态路由机制,将输入数据分配到不同的子网络进行处理,提升了训练和推理的效率。
而MLA减少了KV cache的使用,提高了架构效率和模型性能,这使得DeepSeek V3在6000亿参数的Megatron级别大模型中脱颖而出。
DeepSeek对AI生态的影响:竞争与变革DeepSeek的技术创新不仅仅是一个噱头,它还对整个AI生态带来了深远的影响。
DeepSeek的出现让闭源模型的领先地位受到了挑战。
比如,OpenAI的模型推理产生的毛利率超过75%,这意味着OpenAI的成本差距在4到5倍之间。
而DeepSeek的高性价比必然驱动开发者和公司们的迁移。
随着DeepSeek登上全球免费应用榜单的第一名,它已经在印度等140个全球市场中获得了广泛关注。
数据显示,DeepSeek的日活用户量已经达到ChatGPT的23%,每日下载量也超过了ChatGPT。
这直接导致了OpenAI不得不调整自己的商业模式,甚至在2025年1月31日,他们发布了推理模型o3-mini,并且首次对免费用户提供推理模型服务。
DeepSeek不仅冲击了闭源模型,还对开源的AI模型带来了巨大的压力。
Meta是开源模型的领头羊,但在DeepSeek R1发布之后,他们立刻进入了紧急状态,成立了四个“War Rooms”作战室,以准备发布Llama 4开源模型。
Meta最初选择开源路线,希望通过这种方式积聚生态系统中的应用,最终从广告和Google Play等应用上赚钱。
但DeepSeek的出现让Meta必须重新审视自己的策略。
安全与争议:DeepSeek背后的冲突与讨论DeepSeek的快速崛起也伴随着不少争议。
首先是关于模型蒸馏的指控。
据媒体报道,OpenAI认为DeepSeek “蒸馏” 了他们的模型,侵犯了知识产权。
具体而言,OpenAI的指控是DeepSeek在训练模型时使用了他们的数据。
这种方法被称为黑箱蒸馏,即通过调用OpenAI的API并基于生成的结果进行训练,而不需要直接访问OpenAI的模型。
这种指控并不新鲜,业内人认为,OpenAI要提供API使用情况的证据才能证明DeepSeek存在蒸馏行为。
这一指控让人想起AI界的另一个争议:过往OpenAI也曾被指控在训练模型时使用了受版权保护的数据。
DeepSeek的出现再次揭示了AI大模型行业内法律和合规方面的空缺。
安全问题也是一个大头。
2025年1月底,网络安全公司Wiz公开了一项研究结果:DeepSeek将一个关键数据库暴露在互联网上,泄露了系统日志、用户提示,甚至用户的API身份验证信息,总计超过100万条记录。
这对DeepSeek团队提出了新的挑战,如何在保证模型性能的同时,确保系统安全,并防范未来可能的监管问题?
幻方量化的成长故事:从量化交易到AI开源先锋DeepSeek背后的公司——幻方量化,一直以来都是一个低调但实力强大的存在。
这家公司由梁文锋和他的伙伴们建立,在最初几年专注于量化交易。
梁文锋从一开始就对人工智能充满了兴趣,并将这一技术应用到量化交易中。
幻方量化的成长历史充满了坚持和创新。
早在2016年,他们就推出了第一个AI模型,并开始使用GPU生成交易仓位。
之后几年,幻方不断在AI算法和硬件方面进行投入,甚至在2019年自掏2亿元研发深度学习训练平台“萤火一号”。
这种对技术的执着和投入,才有了后来DeepSeek的崛起。
有趣的是,DeepSeek曾在2024年5月短暂开放外部投资窗口,但由于市场对基础大模型的风险和技术的信心不足,最终没有寻找到投资。
梁文锋放弃融资,决定依靠幻方的资金来支持DeepSeek的研究。
这种选择一度让很多人对其未来充满疑虑,但事实证明,他们走了一条与众不同但行之有效的道路。
幻方量化的企业文化更加吸引人。
在幻方,你可以感受到一种纯粹的技术氛围,每个人都专注于创新,没有KPI或OKR的压力。
年轻的工程师们可以自由选择自己的研究方向,梁文锋则亲自参与写代码、跑代码,身先士卒。
这样的企业文化,让团队在面临巨大挑战和困境时依然能够保持凝聚力和创新力。
总之,DeepSeek的崛起不仅是一个技术上的成功,它也折射出幻方团队对于技术的执着和创新精神。
这个故事不仅让我们看到了技术创新的力量,也提醒我们,在追求技术突破的过程中,团队的文化和信念同样至关重要。
DeepSeek的故事不仅仅是关于一款低成本高效率的AI模型,更是关于坚持、创新和执着的故事。
在这个不断追求技术突破的时代,DeepSeek带来的冲击不仅仅改变了AI生态,也让我们看到了技术背后的文化和信念。
未来,AI的发展将会更加迅速和多样,而DeepSeek无疑为这一进程注入了强大的动力。
或许,我们可以期待,在未来更多的技术创新中,看到类似于DeepSeek这样的故事,它们不仅改变了行业,也让我们对未来充满了希望和期待。