DeepSeek:震撼世界的AI“黑马”,如何异军突起?

尔琴说国际 2025-02-04 04:46:35
DeepSeek 爆火,全球瞩目

春节前后,科技圈被一个名字彻底点燃 ——DeepSeek。这个来自中国的 AI 大模型,犹如一颗重磅炸弹,在全球范围内掀起了惊涛骇浪。

1 月 27 日,苹果 App Store 中国区和美国区免费榜同时被 DeepSeek 登顶 ,其下载量一骑绝尘,将 ChatGPT、Google Gemini、Microsoft Copilot 等一众美国科技公司的生成式 AI 产品远远甩在身后,成为首个同期在中国和美区苹果 App Store 占据榜首的中国应用。一时间,全球用户疯狂涌入,体验这款来自东方的神奇 AI。

而在大洋彼岸的美国股市,DeepSeek 同样掀起了惊涛骇浪。当地时间 1 月 27 日,美股科技股集体暴跌,英伟达收跌 16.97%,市值一夜蒸发近 5900 亿美元,创下美国金融史纪录 。博通、台积电等芯片股也未能幸免,纷纷大幅下挫。这场暴跌的导火索,正是 DeepSeek 推出的低成本高性能 AI 模型,让市场对美国科技巨头的高投入、高成本 AI 发展模式产生了深深的质疑。

出身不凡,成长迅猛

DeepSeek 背后的公司 —— 杭州深度求索人工智能基础技术研究有限公司,于 2023 年 7 月 17 日在杭州市拱墅区市场监督管理局登记成立,由知名量化资管巨头幻方量化创立 。公司创始人兼 CEO 梁文锋,1985 年出生于广东湛江,硕士毕业于浙江大学信息与通信工程专业。他在量化投资和高性能计算领域拥有深厚的背景和丰富的经验,2015 年成立的幻方量化,在 2021 年资产管理规模就突破了千亿,成为国内量化私募 “四大天王” 之一。

从成立之初,深度求索就展现出了惊人的发展速度。2024 年 5 月,DeepSeek 发布 DeepSeek-V2 模型,凭借创新的模型架构和性价比引发关注,其 API 定价仅为美国 OpenAI GPT-4 Turbo 的百分之一,一度引发国内大模型的 “价格战” 。同年 12 月 26 日,DeepSeek-V3 模型发布,多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,甚至能与 GPT-4o、Claude 3.5-Sonnet 等顶级闭源模型一较高下,而它仅使用 2048 颗算力稍弱的英伟达 H800 GPU,成本约为 557.6 万美元,以十分之一的成本实现了与 GPT-4o 较量的水平,震惊业界 。

进入 2025 年,DeepSeek 的发展更是势如破竹。1 月 20 日,正式发布推理大模型 DeepSeek R1,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,而训练成本仅为 560 万美元 。短短两年时间,DeepSeek 就从一家初创公司成长为全球 AI 领域的重要参与者,推出了多个具有划时代意义的模型,每一次发布都在全球科技圈掀起巨浪,这样的发展速度,在 AI 发展史上都极为罕见。

技术突破,实力超群

(一)媲美顶尖的性能表现

DeepSeek-R1 的发布,无疑是 AI 领域的一场地震。在数学能力基准测试中,它的准确率达到了 77.5%,与 OpenAI 的 o1 不相上下 ;在编程领域的 Codeforces 评测中,它更是达到了 2441 分的水平,高于 96.3% 的人类参与者 。在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中,DeepSeek-R1 的得分略低于 OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了 OpenAI o1 。与上月发布的大模型 DeepSeek-V3 相比,DeepSeek-R1 在 AIME 2024 和 Codeforces 中的得分提升了近一倍,而其余项也均有不同程度的提升。这些数据,无疑是 DeepSeek-R1 强大实力的最好证明。

(二)独特的训练技术

DeepSeek-R1 的强大,不仅体现在其卓越的性能上,更体现在其独特的训练技术上。在训练过程中,它大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力,几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升 。

通常情况下,强化学习可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年 ChatGPT 成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。DeepSeek-R1 的这种创新训练方式,不仅降低了对大量高质量标注数据的依赖,还提升了模型的自主性和适应性,为 AI 训练开辟了一条新的道路。

(三)持续的创新探索

DeepSeek 并没有满足于现有的成绩,而是在技术创新的道路上不断探索。在其公开测试结果中,透露了另一个未公开的大模型 ——DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,虽然未对外公开,但却展现出了惊人的潜力。

在 DeepSeek-R1-Zero 自我学习的过程中,随着时间的增加,该模型 “涌现” 出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次 “尤里卡时刻”(“aha moment”) 。在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多的时间进行重新思考。工作人员并没有教 DeepSeek-R1-Zero 如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。这一发现,让人们看到了强化学习为人工智能解锁新智能水平的可能性,也让我们对 DeepSeek 未来的技术创新充满了期待。

高性价比,优势尽显

(一)低廉的训练成本

在 AI 模型的训练成本上,DeepSeek 展现出了令人惊叹的优势。以 DeepSeek-R1 为例,其训练成本仅为 560 万美元 ,而 OpenAI 的 GPT-4o 模型,训练成本高达 1 亿美元 ,两者相差近 20 倍。这意味着 DeepSeek 能够以极低的成本,实现与顶尖模型相媲美的性能,极大地降低了 AI 技术的研发门槛,让更多的企业和机构能够参与到 AI 的研发和应用中来。

(二)亲民的使用价格

DeepSeek 不仅训练成本低,使用价格也非常亲民。其 API 定价为每百万输入 tokens 1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens 16 元 。相比之下,OpenAI o1 的运行成本约为前者的 30 倍 。如此低廉的使用价格,使得 DeepSeek 在市场上具有极大的竞争力,无论是个人开发者还是大型企业,都能轻松负担得起,这无疑将加速 AI 技术的普及和应用。

开源共享,生态繁荣

在 AI 发展的生态构建上,DeepSeek 同样走出了一条独特且意义深远的道路,那就是完全开源策略。这一策略犹如一颗投入平静湖面的石子,在全球 AI 开发者社区中激起了层层涟漪,带来了一场生态繁荣的变革。

曾经,OpenAI 创立之初怀揣着 “以最有可能造福全人类的方式推进数字智能发展,而不受产生财务回报需求的限制” 的美好愿景 。然而,在 GPT-3 发布之后,它开始限制对模型的访问权限,仅通过 API 提供服务,到 GPT-4 发布时,更是将训练数据和模型权重隐藏,彻底走向了 “闭源” 。而 DeepSeek 却反其道而行之,选择了一条完全开源的道路,将模型代码和技术细节毫无保留地公之于众。

这一开源策略的影响是深远的。它极大地降低了用户的使用门槛,让更多的人能够接触和使用先进的 AI 技术。无论是经验丰富的开发者,还是刚刚踏入 AI 领域的新手,都能在 DeepSeek 的开源代码中找到自己的机会。通过在 GitHub 等平台上自由获取和修改模型代码,开发者们可以根据自己的需求进行定制化开发,将 DeepSeek 的模型应用到更多的领域和场景中。

大量开发者和研究人员被吸引到 DeepSeek 的开源项目中,形成了一个充满活力和创新的 AI 开发者社区协作生态 。在这个社区里,来自不同国家、不同背景的人们汇聚在一起,共同为 AI 技术的发展贡献力量。他们相互交流、分享经验,不断碰撞出创新的火花。截至目前,已有超过 47 万全球开发者参与到 DeepSeek 的社区建设中,基于 DeepSeek-R1 模型,根据不同领域的需求,衍生出了金融、医疗、教育等 17 个垂直子模型 。在金融领域,开发者利用 DeepSeek-R1 强大的数据分析和推理能力,开发出智能投资分析工具,能更准确地预测市场趋势,为投资者提供更科学的投资建议;在医疗领域,通过对大量医疗数据的学习和分析,DeepSeek-R1 的衍生模型可以辅助医生进行疾病诊断和治疗方案的制定,提高医疗效率和准确性。

英伟达 AI 科学家 Jim Fan 称赞 DeepSeek 是 “真正开放的前沿研究,赋能所有人” 。这种开源模式,不仅促进了技术的传播和创新,更构建了一个全球 AI 协作的新网络,让 AI 技术能够更好地服务于全人类,为 AI 产业的发展注入了新的活力,也让我们看到了 AI 未来发展的无限可能。

冲击市场,影响深远

(一)对美国科技股的冲击

DeepSeek 的横空出世,犹如一颗重磅炸弹,在全球金融市场掀起了惊涛骇浪,尤其是对美国科技股产生了巨大的冲击。当地时间 1 月 27 日,美国股市开盘后,人工智能主题股票遭遇疯狂抛售 。英伟达作为 AI 芯片领域的巨头,股价暴跌 16.97%,市值一夜之间蒸发近 5900 亿美元,创下美国金融史上单日市值损失的最高纪录 。这一跌幅让整个市场为之震惊,也让投资者们深刻感受到了 DeepSeek 带来的震撼力。

除了英伟达,博通、超微半导体等芯片股也未能幸免,纷纷大幅下挫。博通股价下跌 17%,超微半导体股价下跌 6% 。这些芯片公司在 AI 产业链中占据着重要地位,它们的股价暴跌,反映出市场对 AI 芯片未来需求的担忧。而微软、谷歌等科技巨头,虽然业务多元化,但在 AI 领域也投入了大量资源,DeepSeek 的出现,同样让它们的股价受到了不同程度的影响,微软股价下跌 2% 。人工智能领域的衍生品,如电力供应商也受到重创,美国联合能源公司股价下跌 21%,Vistra 的股价下跌 29% 。这是因为 AI 训练需要消耗大量的电力,DeepSeek 低成本高性能的模型,可能会减少对大规模数据中心的需求,从而影响到电力供应商的业务。

这种市场反应,不仅仅是股价的短期波动,更是市场对 AI 行业未来发展格局的重新审视。DeepSeek 以低成本、快速开发的模式达到了美国 OpenAI 模型的水平,让投资者们开始质疑,是否真的需要通过高成本的模式来进行人工智能的开发 。如果 DeepSeek 的模式可以被广泛复制,那么美国科技巨头们在 AI 领域的高投入、高成本发展模式,可能会面临巨大的挑战。这也意味着,AI 行业的竞争格局可能会发生重大变化,未来的市场将更加注重技术创新和成本控制,而不是单纯的资金投入。

(二)对 AI 行业的推动

在冲击市场的同时,DeepSeek 也为 AI 行业的发展注入了强大的动力,推动着整个行业迈向新的高度。

华福证券分析师杨晓峰指出,DeepSeek 从 V3 到 R1,将进一步推动全行业大模型的提升,更快地追赶 GPT4o 和 GPT-o1 。它的出现,让全球的 AI 研发团队看到了新的可能性,激发了更多的创新活力。其他公司为了在竞争中不被淘汰,必然会加大研发投入,不断优化自己的模型,从而推动整个行业的技术水平不断提升。

DeepSeek 的低成本优势,有助于 AI 应用和 AI 终端的普及 。随着 AI 技术的不断发展,应用场景越来越广泛,但高昂的成本一直是制约其普及的重要因素。DeepSeek 的出现,打破了这一困境,让更多的企业和个人能够负担得起 AI 技术。无论是在医疗、教育、金融等传统行业,还是在智能家居、智能交通等新兴领域,AI 技术的应用将变得更加广泛,为人们的生活带来更多的便利和创新。

从 AI 基建产业链来看,DeepSeek 的创新技术也带来了多方面的影响 。在推理阶段,随着计算成本的降低,AI 的潜在投资回报率将显著提升,这将为 GPU、ASIC、DCI 等环节带来新的机会。虽然训练需求的减少可能对 Retimers 和光模块等环节产生一定压力,但整体来看,AI 基础设施的建设将继续保持强劲增长。它的出现,加速了数据的流通与共享,有助于推动上下游企业的合作,增强整体产业链的韧性。

未来展望,潜力无限

DeepSeek 的出现,让我们看到了 AI 技术发展的无限可能。它以卓越的技术突破、超高的性价比、开放的开源策略,在全球 AI 领域掀起了惊涛骇浪,不仅冲击了美国科技股的市场格局,更推动了 AI 行业的整体发展。

在未来,随着技术的不断进步,DeepSeek 有望在更多领域取得突破。在医疗领域,它可以帮助医生更准确地诊断疾病、制定治疗方案,提高医疗效率和质量;在教育领域,它能为学生提供个性化的学习方案,实现因材施教,让教育更加公平和高效;在金融领域,它可以更精准地预测市场趋势,降低投资风险,为投资者提供更优质的服务。

1 阅读:6
尔琴说国际

尔琴说国际

感谢大家的关注