对话袁进辉:必须实现Token自由,下一个“张小龙”才会出现|涌现36人

36氪 2024-08-21 15:50:51

欢迎关注

涌现(Emergence),是生成式AI浪潮的一个关键现象:当模型规模扩大至临界点,AI会展现出人类一般的智慧,能理解、学习甚至创造。

「涌现」也发生在现实世界——硅基文明一触即发,AI领域的创业者、创造者,正在用他们的智慧与头脑,点亮实现AGI的漫漫征途。

在新旧生产力交替之际,《智能涌现》推出新栏目「涌现36人」,我们将通过与业界关键人物的对话,记录这一阶段的新思考。

文|邓咏仪

编辑|苏建勋

在国内大模型市场,大概没有哪个人的经历,会比2023年的袁进辉更具戏剧性。

“坐过山车的一年,”硅基流动CEO袁进辉总结道,“年初,OneFlow是估值1亿美元的公司。被并购一个月后估值就超过10亿美元。两个月之后这个数字又变成零。再经过一个月成立硅基流动,又回到了起点。”

2023年,ChatGPT爆火之后,袁进辉创办七年的一流科技OneFlow,瞬间成为炙手可热的项目。这源于前美团联合创始人王慧文成立大模型公司“光年之外”,且迅速通过并购方式,邀请袁进辉作为联创加入。但数月后,光年之外因故被美团收购告一段落。

8月,袁进辉即宣布创立新公司“硅基流动”,方向还在老本行:AI Infra(AI基础设施)。

AI Infra相当于AI领域的“iOS”或“安卓”,上承算法和应用,下接硬件芯片。它的好坏与否,决定着下面的芯片层是否能将性能发挥到极致。AI Infra也是开发者们的“工具箱”,能帮助他们快速开发出AI模型和应用。

这个赛道是兵家必争之地。AI框架是AI Infra的重要组成,是被大厂和芯片公司“上下夹击”的一层——现在最广泛的AI开源深度学习框架PyTorch和TensorFlow,分别由Meta和Google主导开发。

在袁进辉看来,Infra和芯片都是AI的底座的重要组成部分。选择Infra方向,胜在走向市场的速度够快。“芯片公司做一款芯片,都要两年起步,远水解不了近渴。”袁进辉向《智能涌现》解释。

当下,正值AI大模型走向应用层的爆发时期,AI推理市场开始大规模增长。袁进辉的目标,就是在AI应用爆发之际,给开发者提供关键的“铲子”。

6月,硅基流动刚刚推出新产品SiliconCloud,目前已达日均百亿Token的调用量,团队还宣布多个主流模型服务永久免费——袁进辉也因此被许多开发者称为“赛博活佛”。

“必须扩大AI开发者的基数,让他们实现Token自由,才会有下一个“张小龙”的出现。”袁进辉说。

而纵观袁进辉的两次创业,都是关于证明自己、“舍我其谁”的故事。

七年前成立OneFlow,源于他看到的一个趋势:AI模型体量将会越来越大,但已有的深度学习框架难以承载,需要全新的基础设施。OneFlow成功打造出了世界前沿的分布式深度学习训练框架,不过当大模型突然成为共识时,却没来得及跑通商业化闭环。

现在,面对全新的AI推理市场,袁进辉渴望完成这道证明题。

在上一个互联网创业浪潮中,中国创业者往往被认为擅长模仿,快速迭代出最经济的商业模型。但袁进辉这样的创业者,代表着一种新时代技术创业者的面貌——从第一天创业起,就敢于站在世界舞台上,直面最前沿技术的竞争。

“AI框架就是一个赢者通吃的市场。无论我们面对大厂时多么弱小,资源多么匮乏,我们的雄心壮志,一直就是为全世界做最好的产品。”他说。

8月,硅基流动正好成立满一周年。《智能涌现》与袁进辉复盘了过去他的心路历程,以及聊了聊新出发后的风景。

以下为对话实录:

暴风眼中的一年

《智能涌现》:从去年8月份成立硅基流动,到现在也将近一年时间了。最近工作状态怎么样?

袁进辉:这一两个月我才缓过劲来,因为去年一整年就像坐过山车。2023年的半年时间里,我换了4家公司,从OneFlow,到光年之外,又到美团,然后8月份又分拆出来,就像大海风浪中的一只小船。

到了2023年下半年,大模型方向的投资也冷静下来。幸运的是,硅基流动成立以来顺利完成了几轮融资,资金上有了保障,现在产品推出后,还得到挺好的反馈,一定程度上缓了一口气。

这一年AI行业的创业者,应该都有一种推背感。

《智能涌现》:2023年时,为什么会选择和王慧文(原美团联合创始人)合作,让OneFlow被收购?当时其实王慧文去聊了非常多人,我们观察到,大家想法态度也都很不一样。

袁进辉:无论是科学家还是创业者,最本源是在追求做有Impact的事业。要做一件更大的事情,需要面对更复杂的局面、整合更多资源时,需要团队,是不是我自己把握方向盘不重要,有这样的ego是没必要的。当时的状况是,老王的产品、商业都是业内顶级,我们有技术、工程能力,其实是一个非常好的配置。

《智能涌现》:这段经历给现在的创业,带来了什么?

袁进辉:非常独特的一段经历。与老王(王慧文)一起共事,在非常短的时间里,学到非常多,共事的几个月里,很多事情我们几个联创会一起讨论,能感受到他的思考和决策方式。我个人收获最大的是商业、组织层面以终为始的思考——以完成更大、更远的追求和目标来倒推。

《智能涌现》:怎么理解这个“很大、很高”的目标?

袁进辉:顶级企业家所表现出的作风,不给自己设限,永远在迭代,永远在进步。

他们不会从自己有多少资源开始,再决定要去做什么事情,而是去首先思考世界、社会或者行业中最重要的问题是什么?再看要通过什么路径来实现。

《智能涌现》:你觉得以前并不是“工具箱”不够好,而是在于想得不够大?

袁进辉:以前想得也大,不过没有找到路径。那几个月正处在风暴眼中,迅速补完了很多课和Skill Set——这是打过仗才能获得的体会。老王打过仗,就像创业课的博导。

《智能涌现》:哪些思考让你最受益?

袁进辉:“先想清楚做什么事,事情对了,资源都会有,包括人与钱。”

事后,这些话都得到了验证。我们选择再创业的时候,一个突出矛盾是,大模型那时仍是最令人激动的事,但我们没有足够资源了,我们怎么才能有机会继续留在牌桌上,也要首先想清楚做什么事。

《智能涌现》:我们在去年采访老王的时候,听到过一模一样的话。

袁进辉:创业者要思考清楚那个特别客观的东西,就像雷军所说的“顺势而为”里的那个“势”。这个可以是趋势的“势”,也可以是事业的“事”。

《智能涌现》:分拆的时候,有过哪些选择?

袁进辉:选择非常多,几乎所有的大模型厂商都给我们抛橄榄枝了。还有很多大厂以非常夸张的薪资包裹来挖人,压力非常大。

《智能涌现》:所以这些朋友的鼓励,算是帮你消解了一些不确定性。

袁进辉:是的。整个环境趋冷的状态下,所有投资人或靠谱人才都会更理性,他们首先考虑这件事是否靠谱,这是说服别人开枪的最关键的一点。

《智能涌现》:硅基流动现在做的是什么事情,能用简单易懂的语言来解释下吗?

袁进辉:我们的技术核心是提供一个推理引擎。要有效利用大模型,需要几个关键要素:GPU、模型,以及让模型在GPU上运行并具备问答能力的引擎。这个引擎的关键任务是确保模型运行稳定、不损失精度,并且运行速度尽可能快,运行速度直接影响到使用模型的成本。

在一定的算力基础上,能够快速生成更多的Token,成本效益就更高。

《智能涌现》:也就是像大模型界的“水电煤”,随取随用。

袁进辉:现在国内外大家都比较喜欢讲MaaS这种产品形态,这实际上就是把模型、引擎、云上的算力整合成一个API。

开发者不需要自己去找GPU或优化引擎。他们只需注册,然后通过API调用模型并开发应用,按Token计费即可。大模型公司通常只提供自己的模型,但我们是一个中立第三方,提供业内常用的开源模型,如通义、智谱、DeepSeek、零一万物,以及海外的LLaMA、Mistral等。用户可以根据自己的需求选择最合适的模型。

《智能涌现》:你们以前做大模型的训练框架,再创业后,转向现在的推理框架。最后为什么还选择继续创业?

袁进辉:既有长远的问题,也有眼前的问题。我们需要选择一个很大的市场,另一方面,在达到最大的一个目标(AGI)之前,要保证我们在牌桌上,要生存下来。从这两个角度出发,我们都应该转去做推理。

《智能涌现》:这个市场有多大?

袁进辉:单纯从算力消耗来说,很快推理会远超训练。做训练方向的Infra,客户集中度很高,而且,大模型训练是阶段性的需求,训练数据通常是固定的,比如几万亿、几十万亿token的量级。但做推理,可能每天都是几万亿到10万亿Token,一周就超过了训练的计算量。而且,大家都认为模型推理成本下降是超级应用爆发的前提条件之一。

《智能涌现》:现在模型的训练和推理使用的算力,大概是在一个怎样的比例?

袁进辉:前段时间英伟达有个财报电话会透露,按销售出去的卡来算,训练和推理比例已经不相上下。由于中国比海外的节奏会慢几个月或者半年,所以国内可能训练会多一些。

但现在也在发生一些变化,我相信你们也注意到,随着开源模型水平上升,开源模型越来越多,已经能做出应用了。国内外行业的重心已经转到应用,而不是再去卷模型训练。我相信推理的算力已经超过训练。

《智能涌现》:最近你们也新上了产品SiliconCloud,效果大概怎么样?

袁进辉:我们公测时没有做任何的推广,但每天涌进来很多新用户,几天后单日调用量就超过几十亿Token了。大家对这个数字可能没有直观的感受。ChatGPT的调用量都是万亿到数万亿Token/天,国内知名大模型一天的Token总量几百亿或几千亿,所以我们也挺受鼓舞。

《智能涌现》:比起原厂的模型,你们的优势会在哪里?

袁进辉:首先,模型种类非常全面,甚至包括一些很挑战而稀缺的模型。像Deepseek 236B这样的模型要部署好,其实有很多挑战。目前为止,除了我们和官方,没有其他公司能将这些模型部署在自己的平台上。而且,好多开发者发现,同样的模型,在我们平台上的推理速度更快。

模型降价,比想象中早

《智能涌现》:5月开始,模型厂商纷纷降价。降价潮,你觉得是提早来了吗?

袁进辉:我们预计这个事一定会发生,但确实来得比想象早,比较突然,模型降价是Deepseek最早引爆的,其他各方主动也好,被动也好,都得跟进。

《智能涌现》:大家都是出于什么心态在做降价这个事情?

袁进辉:大家态度不是很相同,但降价也是势在必行。至少我们自己,用技术手段把成本真的做到了很低的水准,技术手段完全可以做到保证不亏本,甚至有钱赚。不过,业内绝大部分参与方还不是真正做到这一点,那就得补贴亏钱,非常有钱的厂商,可以这么做。

《智能涌现》:这算是对你们有利的吗?

袁进辉:是的,我们准备得足够充分。

5月份,Deepseek发新产品的时候,我们也没在第一时间推出来产品,两三周之后我们的MaaS上线,我们计划6月25号做推广活动,结果正好赶上OpenAI宣布对中国停服,我们就推出了部分大模型永久免费的活动。

《智能涌现》:我记得有一个报告提到,OpenAI在过去一年的推理成本下降了至少90%。无论是训练还是推理两边,成本都下降得非常快。这个趋势以后会怎么演变?

袁进辉:毫不夸张。我在一个开发者大会上做过一个报告,标题是《让模型部署成本降低1万倍》。

《智能涌现》:1万倍,怎么做到?

袁进辉:多方面综合发力。在芯片层面,有10倍的优化空间,最近有个很热的新闻,一位00后创立了一个芯片公司,做了一款叫Sohu的芯片,号称可以超过英伟达最新GPU10倍。模型层也有10倍。比如,现在100亿参数的模型能力,超过一年前的千亿参数模型。模型缩小了10倍,计算量也相应减少10倍。我们所在的基础设施层面至少也有10倍的优化空间,一年前运行缓慢的模型,现在可以运行得非常快。

还有底层的云计算,可以把算力部署在电费较低的地方,潮汐效应也有优化空间,白天服务一个区域,晚上服务另一个区域。综合下来,相对于一年前的水平,10000倍是可以做到的。

《智能涌现》:如果把硬件和软件分开来看,硬件的优化空间更大,还是软件?

袁进辉:在大模型推理上,软件的优化空间更大,这是由大模型推理本身计算负载的特点决定,它是访存瓶颈的任务,主要优化机会是软件层面的调度,不是芯片层面的问题。

《智能涌现》:如果软件的优化空间更大,是否意味着,未来对大模型公司来说,芯片不再是问题了?

袁进辉:应该是,芯片供应商会变得更加多元化。未来应该会有更多的芯片竞争者,一旦竞争充分,芯片价格有很大的下降空间。之前有人做过粗略估计,一张H100的制造成本大约3000美元,但售价高达3万美元,芯片成本有很大下降空间。

《智能涌现》:国内有不少创业公司出来做推理芯片,也想发展自己的软件生态。大厂也在竞争,比如百度的AI框架“飞桨”已经做了很多年,同时大厂都是全栈式打法。你们所处的赛道,刚好是夹在芯片层和算法层之间,上下两方都有可能侵蚀你们的赛道。

袁进辉:所有相关方都有竞合关系。其它赛道的玩家站稳脚跟后,也可能会向我们发起冲锋。

做推理方面的软件优势在于,能更快进入市场。芯片的开发周期长,即使现在开始做,也得两年后才能出来。现在解决当前问题只能靠软件。即使将来芯片出来,仍然需要软件基础设施。

《智能涌现》:所以这个事儿,相当于打个时间差的问题。在别人大规模做应用的情况下,我们能很快地进入这个市场。

袁进辉:是的。AI应用的基础设施中有几个环节,包括模型、芯片和软件,这些环节相互合作才能给用户带来能力。所以我们都是互补的,谁也离不开谁。

如果模型层竞争非常充分,比如很多模型公司要和OpenAI竞争,这个环节供给多元化的话,其他环节就会活得更舒适一些。反过来,如果OpenAI的宝座坐得稳,它也会垂直整合其他环节。所以,模型、芯片、Infra都在竞争底座的生态位,即基础设施的生态位。关键是谁先到达那个位置,或者谁能整合别人。

现在的模型,已经能支撑超级应用

《智能涌现》:我注意到你在朋友圈说,你觉得现在的模型能力已经足以支撑超级应用(Super APP)的出现,只是这样的应用还没有出现。为什么会有这样的判断?

袁进辉:大模型在三个方面的能力取得了突破。首先是语言能力,即模型说话是否流畅自然,大模型的语言能力甚至比大部分人都要好。

第二是知识能力。现在模型里有了一些知识,虽然有一些所谓的幻觉,但有手段去解决,比如大语言模型+RAG。

第三是逻辑。目前逻辑推理还不是很强,这限制了模型在复杂场景中的应用,特别是Agent。

我想表达的是,前两个能力在很多应用场景里完全足够做出惊艳的产品。

《智能涌现》:但无论是上下文长度或者幻觉问题,现在都还没有解决得非常好。

袁进辉:上下文长度已经做得很好了,幻觉也有RAG等技术可以克服。

《智能涌现》:所以就差逻辑了。

袁进辉:是的。我相信,基于当前这些开源的模型,完全能做出新的Super App,当然,Super App还需要另外一些条件,我们需要等待。

《智能涌现》:我们首先来对齐定义,你觉得Super App的定义是什么?

袁进辉:大家心里会有个标杆,比如类似抖音、微信这种量级的,日活非常高,用户离不开的产品。

《智能涌现》:这都是用户数到10亿级别的应用了。所以你是觉得,只是还没有人做出这样的创新而已?其实还有人说模型能力不够——这是最近大家一直以来提到的一点。

袁进辉:我不相信模型能力还不够这种说法。现在除了PMF,还开始讲TPF(Technology Product Fit),其实产品上足够有创意,不一定需要最尖端技术,介于GPT 3.5和GPT 4之间的开源模型对有的产品够用了。

《智能涌现》:能举个例子吗?

袁进辉:比如陪伴对话,模型可以表现得非常自然。注意到最近美团推出的产品Wow,在海外上线后,有一位留学生使用它来解决生活中的烦恼。楼上的邻居深夜开派对,影响她休息,但她不敢去交涉,Wow机器人一直给予她合理和理性的建议,就像一位朋友一样。当她需要用英文与邻居沟通时,Wow立刻转换语言,帮她妥善处理了问题。

我认为,这个场景需要的能力,开源模型都可以做到。

《智能涌现》:所以,开源模型和闭源模型的差距是在不断缩小的?

袁进辉:开源模型追赶速度还是很快,这也说明最前沿的闭源模型的迭代速度变慢了。

《智能涌现》:参照云计算的发展路径,其实云计算到现在已经是一个特别标准化的事情了,很早就陷入到同质化竞争。大模型的稀缺性能维持多久?

袁进辉:开源模型实现了让模型触手可及,现在不是那么稀缺了。以后会不会稀缺,还要再走一段时间,看是不是会出现大模型厂商的收敛。

真正做到特别Top的模型非常少,或许有的模型厂商以后重心就会转成应用了,甚至像朱啸虎讲的,几年之后没有所谓的模型公司,都是应用公司。

《智能涌现》:所以拼到后面,大家要拼什么?

袁进辉:现在最容易想到的是钱和GPU,模型的技术传播扩散还是很快的,以后很多公司都会模型技术,最后比拼模型之外的能力。最后都会反映到数据优势上。比如现在腾讯出了元宝,基于微信生态的内容,元宝的效果就非常好。小红书也很有优势。

《智能涌现》:所以,你会更看好大厂做的AI应用吗?

袁进辉:短期是大厂,长期我相信还有其他力量会起来。产品的创意和洞察具有偶然性。既然是偶然性,从概率角度来看,一个微小的概率,叠加一个巨大的基数,就很可观了。今天的大厂里做应用的人,加起来可能一两千人,但他们之外,做应用的人可能是数百万之众。10年前,大家也不会想到有人能挑战BAT,但总有新的公司出现。

《智能涌现》:从环境上来看,这跟上一个时代的创业一样吗?现在无论是钱、人才,可能都不太能相比。

袁进辉:AI也会有所谓的“傻瓜窗口期”,在一定阶段内,可能都不会有多少人注意到他们。当年快手起来时,很多人对这个产品后知后觉,并没注意到原来五环外还有这么一个需求。

《智能涌现》:以后,国内有什么方面能够做到世界顶尖的水平吗?

袁进辉:客观来说,现在我们的芯片、模型,还不是世界顶尖。但在AI Infra领域,我很自信地说,我们肯定是世界顶尖,可以把国内外大厂的模型响应体验、水准进行直接对比。在全世界都有竞争力,所以我们也在做出海。

《智能涌现》:框架层,还是大公司主导的领域,比如Facebook的PyTorch、百度的飞桨等,很讲开源生态。中国公司想要出海,难度会在哪?

袁进辉:中国企业出海,开源是一个有效的手段,开源没有国界,一些中国的开源项目在全球也产生了影响。

如果产品界面足够清晰,足够标准,容易嵌入已有的生态系统,只要能让潜在用户知道且低成本尝试,就能和用户建立联系。

例如,MaaS产品就是一个API调用,界面非常清晰,所有供应商都一样,从一个地方迁移到另一个地方不需要任何改动。只要满足大家最关心的基础指标,如服务保障、响应速度、成本等,出海也相对容易。

《智能涌现》:现在,硅基流动的海外商业化进展怎么样?

袁进辉:我们的MaaS服务推出之前,软件订阅在海外就已经有10来个付费客户了。

《智能涌现》:以后的重心会放在国内还是海外?

袁进辉:客观来说,海外MaaS市场更大,国内海外并重。我们更熟悉在国内开发者社群做产品和推广,所以先从国内起步,海外产品也上线了。

《智能涌现》:关于商业化这件事情,有什么东西是你现在坚持要做的?有什么事就不做了?

袁进辉:关键的一点是,创业公司资源有限,必须找到一个非常好的点,深入挖掘,实现突破。切口可以小,但要切得深。无论这个点多小,都要在整个行业,甚至全球范围内确立优势。然后,将这种模式或方法论扩展到更广泛的产品或方向上。

而不是一开始就什么都做,但什么都不精,这是很多公司遇到困难的原因。

《智能涌现》:这种转变,跟现在的投资环境很有关系。

袁进辉:资金不是那么充沛的情况下,也逼迫着每位创业者去思考,在更加节俭的状况下做到引爆点。我觉得大家有一个共识,就是做强比做大更重要,更加健康。

《智能涌现》:你预计往后做的话,硅基流动还大概会需要多少钱,多少资源?

袁进辉:以现在的增长速度来看,我甚至冲动地觉得,不一定需要再融资,就能把生意转起来,而且建立起比预期还要好的循环。当然,理性地看,还是应该拿到更多的资金,这样做成功的概率更高,更有保障。

《智能涌现》:为什么现在就能实现了?

袁进辉:内外部条件都比较成熟。外部看,行业发展到了需要我们产品的阶段,市场需求旺盛,而我们恰好处在正确的位置,一切都变成了我们的助力。

内部看,我们现在的技术水平,在同类产品里也是世界上最能打的团队。商业化方面最近也有顶尖高手加盟。

预测长期变得非常困难

《智能涌现》:这次新创业,目标有变化吗?

袁进辉:和以前AI框架一样,我们面对的是赢者通吃的市场,一旦决定做这件事,目标就是做成全世界都需要的产品。不管我们开头多么弱小,相对于大厂资源多么匮乏,想的就是为全世界做最好的东西,这一点没有变。

《智能涌现》:跟当年创立一流科技的时候相比,你的心态有发生什么变化吗?

袁进辉:当年做OneFlow时还名不见经传,当时做这样的事情只有谷歌这种大厂,我们经常要说服别人,这事我们真的能干好。现在不需要了,好玩的是现在实现了声誉自由,很多人相信我们不仅能做,而且能做最好。现在追求的是更完整的成功,不光是技术有多厉害,还有产品、商业化、组织、文化等方面的成功。

《智能涌现》:什么事变得更难了?

袁进辉:做OneFlow时,我们提前多年就预判了一个趋势:大模型会出现,我们提前好几年为大模型做Infrastructure,而且很长时间内别人不信,只有我们相信,当时的窗口期非常之长,所以就很从容。

但现在,大模型就是明牌,节奏非常快,一天一个变化,想做非常长期的预测,变得非常困难。

《智能涌现》:五年之后,比如说你觉得哪些事情,但目前还是没有办法解决的?

袁进辉:有些能力也许根本不在大模型的能力范围之内。大模型的价值观是我们教给它的,它可能不会有真正的主观追求和情感。

另外,语言模型之所以先爆发,是因为自然语言有良好的数字化基础,有大量的语料,但迁移到其他领域,譬如和真实世界的交互——具身智能等领域,历史数据非常少,收集这些数据也面临很多困难,我不知道这些问题在五年内能否解决。

《智能涌现》:过去一年,市场上有没有一些共识的出现,是让你觉得特别惊喜的?

袁进辉:大家普遍开始认为应用非常非常重要,即使是OpenAI现在也开始亲自上阵或以并购的方式为应用产品做准备。

《智能涌现》:有没有一些你自己之前非常坚定相信的东西,在这一年里会发生一些变化?

袁进辉:一年前我高估了大模型的难度,没有预料到其他玩家追上OpenAI的速度这么快。应该有不少人和我一样想错了。去年上半年,绝大多数人还在猜测谁能搞出GPT-3.5,现在是家常便饭了,现在普遍要追上GPT-4.0,甚至Claude都已经开始超过4.0。

欢迎关注

1 阅读:61