01
一日之间,DeepSeek成了欧美科技股的噩梦。
截至27日美股收盘,美国芯片巨头英伟达(NVIDIA)股价暴跌16.97%,市值一日内蒸发了近6000亿美元,折合人民币4.3万亿,创下美国历史上任何一家公司单日最大市值损失。
据福布斯报道,该公司的首席执行官、最大个人股东黄仁勋,净资产在收盘时缩水了208亿美元。
除此之外,其他能叫得上名字的科技公司,也无一幸免。
博通公司股价下跌17%,超威半导体公司(AMD)股价下跌6%,微软股价下跌2%……
另外,人工智能领域的衍生品,如电力供应商也受到重创。美国联合能源公司股价下跌21%,Vistra的股价下跌29%……
而此番翻云覆雨,能搅动纳斯达克的主角,既然是成立于2023年才成立的一家中国人工智能初创公司——深度求索公司。
而它旗下的产品,就是如今炙手可热,被行业大咖纷纷认为,能打破国际巨头在人工智能领域垄断的DeepSeek。
作为一款和ChatGPT类似的大型语言模型,它不仅拥有强大的自然语言处理能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。
最重要的是,成本只是前者的十分之一,但在同级别上的表现却一点不差,甚至更佳。
而低成本就意味着低价格,低价格再加上高性能的技术,肯定会被市场追捧,成为AI市场上的弄潮儿。
其实这也不是DeepSeek第一次惊艳世界了。
早在20日晚,发布的推理模型 DeepSeek-R1 正式版,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
与之不同的是,还同步了开源模型权重,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型,在海外被惊呼“这才是真正的开放的人工智能”。
这次发布更被业内人士喻为AI界的 “偷袭珍珠港”事件。
就连英伟达高级研究科学家Jim Fan在评价这款模型时说:
我们生活在这样一个时代:一个不是美国公司的AI企业却实现了 OpenAI成立时的使命——做真正开放的前沿研究、为所有人赋能。
制作这个模型的中国团队,更被西方科技圈称为“神奇的中国力量”。
而让他们想象不到的是,能搅动全球AI风云,让中国人工智能傲视群雄,把ChatGPT拉入马下的幕后大咖,并不是一群经验丰富的行业大拿,仅仅是应届或毕业一两年,没有过多工作经验的小年轻们。
这群平均年龄在28岁的年轻人,用实力向世界证明了,他们在这个领域,不惧世界任何强手,个个扛打。
02
要说DeepSeek的成功,就绝对绕不开一个人。
就是这家公司的创始人,85后中国小伙梁文锋。
1985年,梁文锋出生在广东湛江的一个普通家庭,湛江也不是广东发展的桥头堡,能叫上名的特产就只有生蚝,只是一个经济发展缓慢的三线城市。
但不可否认的是,恰恰是这样的地方,总会出惊世之才。
梁文锋的成长环境虽然报道很少,但据说他的父亲是一名小学老师,对梁文锋的教育也是开化而严明的。
自幼梁文锋就在数学和科学领域展现出了非凡的天赋,他对数学与逻辑的敏感性上更是超越了同龄人,这也让他成为了老师和同学眼中妥妥的“学霸”。
在学业上一路高歌猛进的梁文锋,并没有被相对不发达地方的教育所束缚,他一有时间就专研相关的知识,兴趣就是他最好的老师,很快就掌握了同龄人无法理解的知识,为他今后的求学之路奠定了坚实的基础。
2002年,17岁的梁文锋以优异成绩考入浙江大学电子信息工程专业,成为家族中第一个进入顶尖高校的孩子。
他所学的专业,在当时的浙大更是王牌专业,各科技大厂眼里的香馍馍。
但梁文锋并没局限于此,而是在本科四年的学习中,一边开拓自己的视野,一边精进自己学业,还积极参加各种数学建模竞赛,还未毕业就已在学术圈小有名气。
后来,他又在浙大攻读了硕士学位,研究方向也从电子信息转到了更具前沿性的机器视觉,师从国内这一领域的专家项志宇教授。
2013年,梁文锋与浙大校友徐进共同创办了杭州雅克比投资管理有限公司,正式迈入量化投资的世界。
虽然那时中国在这方面的技术还处于起步阶段,但梁文锋坚信他正在做的事,是金融领域的未来。
而每个做大事的人,必有高瞻远瞩的眼光。
梁文锋也是这样的人,在他30岁那年,梁文锋与徐进正式创办幻方量化,用技术重新定义投资策略,公司的远景就是通过数学建模和人工智能,成为世界顶级量化对冲基金。
2016年,梁文锋又带领团队推出了第一个由深度学习算法驱动的AI模型,开始将GPU引入计算交易仓位,在国内量化领域属于首创。
没想到,一举成功,随后几年,梁文锋继续扩大了AI算法研究团队,将人工只能技术深度融入量化策略。
2018年,幻方量化首次获得了中国私募证券领域的最高奖项——私募金牛奖,让幻方量化站在了行业佼佼者的位置。
但2021年底,由于市场波动和技术决策问题,幻方的业绩出现回撤,对市场有着高度敏感的梁文锋,又开始摸索另一个能让公司增长的新领域。
2023年,38岁的梁文锋再次选择站在技术浪潮的最前沿,这次他看到了人工智能领域的新机遇,创办了深度求索(DeepSeek)公司,专注AI大模型研发。
没想到成立仅仅一年的公司,在2024年就已爆发之势,凭借自己的创新智慧,和以小博大的能力,以市场定价每百万tokens输入1元、输出2元的价格优势,和一点不逊色GPT-4 Turbo的性能,异军突起,成为全世界用户的新宠。
这其中有团队的力量,也和英明的领导者息息相关。
03
这里面还有一个核心人物,也就是前段时间被雷军开出千万年薪,也要挖的95后AI天才少女——罗福莉。
出生在四川小镇的罗福莉,和她的领导梁文锋一样,都出生在普通家庭,并没有什么显赫的家世,成功的路都是靠自己的脚踏实地走出来的。
甚至对于罗福莉来说,还是半路出家,差点就想放弃。
虽然她小时候的成绩也不错,但在上大学之前,罗福莉根本就没想过自己的人生会和计算机沾边,甚至在进入大学之前,他连C++都没学过。
她只是在高考的时候一直执念去大城市读书,又愿意“被调剂”进入了北师大,结果被分配到了一个自己非常不喜欢的专业——电子专业。
大一的时候,她甚至学了半年的C++,才知道这是一门专业课,那时一个班四五十个人,她的成绩永远在三十名开外。别人三分钟就能解出来的Coding题,她要花三个小时。
直到大二的时候,也不知道她怎么突然开窍了,为了保研的硬指标,不理解就只能死记硬背,没想到还真管用,扛了小一年,成绩也迅速的提升到了班级前五名。
也是在这段死磕的时间里,罗福莉才真正寻找到了这里面的乐趣,一边联系北大这方面的老师,一边寻找自己要进的实验室。
那时候她找的老师,手下一共十个人,其中有九个都是男生,不仅在里面略显尴尬,就连老师布置的作业她都搞不懂。
但罗福莉最大的本事,就是在逆境中突破自己。
当退无可退的时候,只要动起来就是进步。
罗福莉开始利用假期、春节等一切可以利用的时间,一边找厉害的师兄辅导,一边自己恶补,就连某一年的春节,她也只在家里呆了一天,就会到学校宿舍写论文。
就这样凭着这股劲儿,罗福莉不仅慢慢跟上了其他人的进度,还超前完成了老师布置下来的任务,并慢慢找到了自己未来工作的方向,坚定了在自然语言处理领域的研究和兴趣。
在研究生阶段,她更是加大了论文的写作,甚至五六篇论文同时都通过了审核。
因为数篇论文的发表,更让罗福莉在某乎成为了这个领域里“神”一样的存在。
毕业后她先是去了阿里达摩院,负责起阿里深度语言模型体系(AliceMind)的开源,并主导开发了AI预训练模型VECO。在电商领域大显身手,尤其助力了阿里速卖通的跨境电商业务。
就在很多人觉得可以躺平的时候,罗福莉又打破了她自己的舒适圈,仅仅工作了两年后就跳槽到幻方量化,从事深度学习相关策略建模和算法研究,这与她在达摩院时的工作内容有很大的区别。
又没过多久,她就去了DeepSeeK担任深度学习研究员,成为公司门面产品DeepSeek-V2的关键开发者之一。
后来基于DeepSeek-V2的成功问世,罗福莉才凭着超强的能力走进了雷军的视线,成了雷军都“三顾茅庐”要挖的人。
04
除此之外,DeepSeeK团队里不乏各种优秀的人才,随便拉一个出来都个个扛打。
比如,作为其他大模型公司破圈关键一环的DeepSeek-V2,其中最重要的创新就是提出了一种新型注意力,替代了传统的多头注意力,大幅减少了计算量和推理显存。
其中为此做出巨大贡献的两个人,就是高华佐和曾旺丁。
高华佐非常低调,目前只知道是北大物理系毕业。
另外,这个名字还出现在了 “大模型创业六小强”之一阶跃星辰的专利信息中,但不确定是不是一个人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
另外,这里面还涉及到了一种关键的变体算法,正因为这种算法才减少了DeepSeek-V2训练资源的需求。
其中的三个人,都是在实习期间完成了这个工作。
核心成员之一的邵智宏,是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
之前曾在微软研究院工作过,研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣。
另一位核心人员朱琪豪,是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。
从北大计算机专业网站上可以看到相关消息:
朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
在团队里,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。
其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。
还有一个核心成员Peiyi Wang,同样来自北大,受北京大学计算语言学教育部重点实验室穗志方教授指导。
另外,还有一些关键人物,也大多出自北大和清华,个个也都算得上在学习期间叫得上名号的人物。
正如一位AI行业猎头,向媒体介绍这家公司的人员构成那样:
DeepSeek给出的薪酬待遇非常具有竞争力,这让其一直对人才有很强的吸引力,一开始团队就是百人左右规模,而且个个都很抗打。
而且在这个团队里面,最大的特点就是——年轻,北大清华的应届生、在读生,都非常活跃。
他们不看经验只看实力,招聘风格也是独树一帜。
据应聘的应届生说,“只招1%的天才,去做99%中国公司做不到的事情”。
这也让这个团队里的每个人,都极具创新和活力。
当然这也和梁文峰的管理逻辑相辅相成,他从不限制各人的想法和创新能力,只要你需要,他会去协调无限量的算法,为你所用。
此刻是否可以高呼一句:
中国在人工智能上的未来,很快就会站上世界之巅。
风雨同舟
各种夸张的报,你狗眼看一下别人位置,不要带节奏
用户18xxx95
也许它们的下跌与深度求索公司没关系,只是高处不胜寒效应吧[笑着哭]