对话袁进辉：必须实现Token自由，下一个“张小龙”才会出现|涌现36人

欢迎关注

涌现（Emergence），是生成式AI浪潮的一个关键现象：当模型规模扩大至临界点，AI会展现出人类一般的智慧，能理解、学习甚至创造。

「涌现」也发生在现实世界——硅基文明一触即发，AI领域的创业者、创造者，正在用他们的智慧与头脑，点亮实现AGI的漫漫征途。

在新旧生产力交替之际，《智能涌现》推出新栏目「涌现36人」，我们将通过与业界关键人物的对话，记录这一阶段的新思考。

文｜邓咏仪

编辑｜苏建勋

在国内大模型市场，大概没有哪个人的经历，会比2023年的袁进辉更具戏剧性。

“坐过山车的一年，”硅基流动CEO袁进辉总结道，“年初，OneFlow是估值1亿美元的公司。被并购一个月后估值就超过10亿美元。两个月之后这个数字又变成零。再经过一个月成立硅基流动，又回到了起点。”

2023年，ChatGPT爆火之后，袁进辉创办七年的一流科技OneFlow，瞬间成为炙手可热的项目。这源于前美团联合创始人王慧文成立大模型公司“光年之外”，且迅速通过并购方式，邀请袁进辉作为联创加入。但数月后，光年之外因故被美团收购告一段落。

8月，袁进辉即宣布创立新公司“硅基流动”，方向还在老本行：AI Infra（AI基础设施）。

AI Infra相当于AI领域的“iOS”或“安卓”，上承算法和应用，下接硬件芯片。它的好坏与否，决定着下面的芯片层是否能将性能发挥到极致。AI Infra也是开发者们的“工具箱”，能帮助他们快速开发出AI模型和应用。

这个赛道是兵家必争之地。AI框架是AI Infra的重要组成，是被大厂和芯片公司“上下夹击”的一层——现在最广泛的AI开源深度学习框架PyTorch和TensorFlow，分别由Meta和Google主导开发。

在袁进辉看来，Infra和芯片都是AI的底座的重要组成部分。选择Infra方向，胜在走向市场的速度够快。“芯片公司做一款芯片，都要两年起步，远水解不了近渴。”袁进辉向《智能涌现》解释。

当下，正值AI大模型走向应用层的爆发时期，AI推理市场开始大规模增长。袁进辉的目标，就是在AI应用爆发之际，给开发者提供关键的“铲子”。

6月，硅基流动刚刚推出新产品SiliconCloud，目前已达日均百亿Token的调用量，团队还宣布多个主流模型服务永久免费——袁进辉也因此被许多开发者称为“赛博活佛”。

“必须扩大AI开发者的基数，让他们实现Token自由，才会有下一个“张小龙”的出现。”袁进辉说。

而纵观袁进辉的两次创业，都是关于证明自己、“舍我其谁”的故事。

七年前成立OneFlow，源于他看到的一个趋势：AI模型体量将会越来越大，但已有的深度学习框架难以承载，需要全新的基础设施。OneFlow成功打造出了世界前沿的分布式深度学习训练框架，不过当大模型突然成为共识时，却没来得及跑通商业化闭环。

现在，面对全新的AI推理市场，袁进辉渴望完成这道证明题。

在上一个互联网创业浪潮中，中国创业者往往被认为擅长模仿，快速迭代出最经济的商业模型。但袁进辉这样的创业者，代表着一种新时代技术创业者的面貌——从第一天创业起，就敢于站在世界舞台上，直面最前沿技术的竞争。

“AI框架就是一个赢者通吃的市场。无论我们面对大厂时多么弱小，资源多么匮乏，我们的雄心壮志，一直就是为全世界做最好的产品。”他说。

8月，硅基流动正好成立满一周年。《智能涌现》与袁进辉复盘了过去他的心路历程，以及聊了聊新出发后的风景。

以下为对话实录：

暴风眼中的一年

《智能涌现》：从去年8月份成立硅基流动，到现在也将近一年时间了。最近工作状态怎么样？

袁进辉：这一两个月我才缓过劲来，因为去年一整年就像坐过山车。2023年的半年时间里，我换了4家公司，从OneFlow，到光年之外，又到美团，然后8月份又分拆出来，就像大海风浪中的一只小船。

到了2023年下半年，大模型方向的投资也冷静下来。幸运的是，硅基流动成立以来顺利完成了几轮融资，资金上有了保障，现在产品推出后，还得到挺好的反馈，一定程度上缓了一口气。

这一年AI行业的创业者，应该都有一种推背感。

《智能涌现》：2023年时，为什么会选择和王慧文（原美团联合创始人）合作，让OneFlow被收购？当时其实王慧文去聊了非常多人，我们观察到，大家想法态度也都很不一样。

袁进辉：无论是科学家还是创业者，最本源是在追求做有Impact的事业。要做一件更大的事情，需要面对更复杂的局面、整合更多资源时，需要团队，是不是我自己把握方向盘不重要，有这样的ego是没必要的。当时的状况是，老王的产品、商业都是业内顶级，我们有技术、工程能力，其实是一个非常好的配置。

《智能涌现》：这段经历给现在的创业，带来了什么？

袁进辉：非常独特的一段经历。与老王（王慧文）一起共事，在非常短的时间里，学到非常多，共事的几个月里，很多事情我们几个联创会一起讨论，能感受到他的思考和决策方式。我个人收获最大的是商业、组织层面以终为始的思考——以完成更大、更远的追求和目标来倒推。

《智能涌现》：怎么理解这个“很大、很高”的目标？

袁进辉：顶级企业家所表现出的作风，不给自己设限，永远在迭代，永远在进步。

他们不会从自己有多少资源开始，再决定要去做什么事情，而是去首先思考世界、社会或者行业中最重要的问题是什么？再看要通过什么路径来实现。

《智能涌现》：你觉得以前并不是“工具箱”不够好，而是在于想得不够大？

袁进辉：以前想得也大，不过没有找到路径。那几个月正处在风暴眼中，迅速补完了很多课和Skill Set——这是打过仗才能获得的体会。老王打过仗，就像创业课的博导。

《智能涌现》：哪些思考让你最受益？

袁进辉：“先想清楚做什么事，事情对了，资源都会有，包括人与钱。”

事后，这些话都得到了验证。我们选择再创业的时候，一个突出矛盾是，大模型那时仍是最令人激动的事，但我们没有足够资源了，我们怎么才能有机会继续留在牌桌上，也要首先想清楚做什么事。

《智能涌现》：我们在去年采访老王的时候，听到过一模一样的话。

袁进辉：创业者要思考清楚那个特别客观的东西，就像雷军所说的“顺势而为”里的那个“势”。这个可以是趋势的“势”，也可以是事业的“事”。

《智能涌现》：分拆的时候，有过哪些选择？

袁进辉：选择非常多，几乎所有的大模型厂商都给我们抛橄榄枝了。还有很多大厂以非常夸张的薪资包裹来挖人，压力非常大。

《智能涌现》：所以这些朋友的鼓励，算是帮你消解了一些不确定性。

袁进辉：是的。整个环境趋冷的状态下，所有投资人或靠谱人才都会更理性，他们首先考虑这件事是否靠谱，这是说服别人开枪的最关键的一点。

《智能涌现》：硅基流动现在做的是什么事情，能用简单易懂的语言来解释下吗？

袁进辉：我们的技术核心是提供一个推理引擎。要有效利用大模型，需要几个关键要素：GPU、模型，以及让模型在GPU上运行并具备问答能力的引擎。这个引擎的关键任务是确保模型运行稳定、不损失精度，并且运行速度尽可能快，运行速度直接影响到使用模型的成本。

在一定的算力基础上，能够快速生成更多的Token，成本效益就更高。

《智能涌现》：也就是像大模型界的“水电煤”，随取随用。

袁进辉：现在国内外大家都比较喜欢讲MaaS这种产品形态，这实际上就是把模型、引擎、云上的算力整合成一个API。

开发者不需要自己去找GPU或优化引擎。他们只需注册，然后通过API调用模型并开发应用，按Token计费即可。大模型公司通常只提供自己的模型，但我们是一个中立第三方，提供业内常用的开源模型，如通义、智谱、DeepSeek、零一万物，以及海外的LLaMA、Mistral等。用户可以根据自己的需求选择最合适的模型。

《智能涌现》：你们以前做大模型的训练框架，再创业后，转向现在的推理框架。最后为什么还选择继续创业？

袁进辉：既有长远的问题，也有眼前的问题。我们需要选择一个很大的市场，另一方面，在达到最大的一个目标（AGI）之前，要保证我们在牌桌上，要生存下来。从这两个角度出发，我们都应该转去做推理。

《智能涌现》：这个市场有多大？

袁进辉：单纯从算力消耗来说，很快推理会远超训练。做训练方向的Infra，客户集中度很高，而且，大模型训练是阶段性的需求，训练数据通常是固定的，比如几万亿、几十万亿token的量级。但做推理，可能每天都是几万亿到10万亿Token，一周就超过了训练的计算量。而且，大家都认为模型推理成本下降是超级应用爆发的前提条件之一。

《智能涌现》：现在模型的训练和推理使用的算力，大概是在一个怎样的比例？

袁进辉：前段时间英伟达有个财报电话会透露，按销售出去的卡来算，训练和推理比例已经不相上下。由于中国比海外的节奏会慢几个月或者半年，所以国内可能训练会多一些。

但现在也在发生一些变化，我相信你们也注意到，随着开源模型水平上升，开源模型越来越多，已经能做出应用了。国内外行业的重心已经转到应用，而不是再去卷模型训练。我相信推理的算力已经超过训练。

《智能涌现》：最近你们也新上了产品SiliconCloud，效果大概怎么样？

袁进辉：我们公测时没有做任何的推广，但每天涌进来很多新用户，几天后单日调用量就超过几十亿Token了。大家对这个数字可能没有直观的感受。ChatGPT的调用量都是万亿到数万亿Token/天，国内知名大模型一天的Token总量几百亿或几千亿，所以我们也挺受鼓舞。

《智能涌现》：比起原厂的模型，你们的优势会在哪里？

袁进辉：首先，模型种类非常全面，甚至包括一些很挑战而稀缺的模型。像Deepseek 236B这样的模型要部署好，其实有很多挑战。目前为止，除了我们和官方，没有其他公司能将这些模型部署在自己的平台上。而且，好多开发者发现，同样的模型，在我们平台上的推理速度更快。

模型降价，比想象中早

《智能涌现》：5月开始，模型厂商纷纷降价。降价潮，你觉得是提早来了吗？

袁进辉：我们预计这个事一定会发生，但确实来得比想象早，比较突然，模型降价是Deepseek最早引爆的，其他各方主动也好，被动也好，都得跟进。

《智能涌现》：大家都是出于什么心态在做降价这个事情？

袁进辉：大家态度不是很相同，但降价也是势在必行。至少我们自己，用技术手段把成本真的做到了很低的水准，技术手段完全可以做到保证不亏本，甚至有钱赚。不过，业内绝大部分参与方还不是真正做到这一点，那就得补贴亏钱，非常有钱的厂商，可以这么做。

《智能涌现》：这算是对你们有利的吗？

袁进辉：是的，我们准备得足够充分。

5月份，Deepseek发新产品的时候，我们也没在第一时间推出来产品，两三周之后我们的MaaS上线，我们计划6月25号做推广活动，结果正好赶上OpenAI宣布对中国停服，我们就推出了部分大模型永久免费的活动。

《智能涌现》：我记得有一个报告提到，OpenAI在过去一年的推理成本下降了至少90%。无论是训练还是推理两边，成本都下降得非常快。这个趋势以后会怎么演变？

袁进辉：毫不夸张。我在一个开发者大会上做过一个报告，标题是《让模型部署成本降低1万倍》。

《智能涌现》：1万倍，怎么做到？

袁进辉：多方面综合发力。在芯片层面，有10倍的优化空间，最近有个很热的新闻，一位00后创立了一个芯片公司，做了一款叫Sohu的芯片，号称可以超过英伟达最新GPU10倍。模型层也有10倍。比如，现在100亿参数的模型能力，超过一年前的千亿参数模型。模型缩小了10倍，计算量也相应减少10倍。我们所在的基础设施层面至少也有10倍的优化空间，一年前运行缓慢的模型，现在可以运行得非常快。

还有底层的云计算，可以把算力部署在电费较低的地方，潮汐效应也有优化空间，白天服务一个区域，晚上服务另一个区域。综合下来，相对于一年前的水平，10000倍是可以做到的。

《智能涌现》：如果把硬件和软件分开来看，硬件的优化空间更大，还是软件？

袁进辉：在大模型推理上，软件的优化空间更大，这是由大模型推理本身计算负载的特点决定，它是访存瓶颈的任务，主要优化机会是软件层面的调度，不是芯片层面的问题。

《智能涌现》：如果软件的优化空间更大，是否意味着，未来对大模型公司来说，芯片不再是问题了？

袁进辉：应该是，芯片供应商会变得更加多元化。未来应该会有更多的芯片竞争者，一旦竞争充分，芯片价格有很大的下降空间。之前有人做过粗略估计，一张H100的制造成本大约3000美元，但售价高达3万美元，芯片成本有很大下降空间。

《智能涌现》：国内有不少创业公司出来做推理芯片，也想发展自己的软件生态。大厂也在竞争，比如百度的AI框架“飞桨”已经做了很多年，同时大厂都是全栈式打法。你们所处的赛道，刚好是夹在芯片层和算法层之间，上下两方都有可能侵蚀你们的赛道。

袁进辉：所有相关方都有竞合关系。其它赛道的玩家站稳脚跟后，也可能会向我们发起冲锋。

做推理方面的软件优势在于，能更快进入市场。芯片的开发周期长，即使现在开始做，也得两年后才能出来。现在解决当前问题只能靠软件。即使将来芯片出来，仍然需要软件基础设施。

《智能涌现》：所以这个事儿，相当于打个时间差的问题。在别人大规模做应用的情况下，我们能很快地进入这个市场。

袁进辉：是的。AI应用的基础设施中有几个环节，包括模型、芯片和软件，这些环节相互合作才能给用户带来能力。所以我们都是互补的，谁也离不开谁。

如果模型层竞争非常充分，比如很多模型公司要和OpenAI竞争，这个环节供给多元化的话，其他环节就会活得更舒适一些。反过来，如果OpenAI的宝座坐得稳，它也会垂直整合其他环节。所以，模型、芯片、Infra都在竞争底座的生态位，即基础设施的生态位。关键是谁先到达那个位置，或者谁能整合别人。

现在的模型，已经能支撑超级应用

《智能涌现》：我注意到你在朋友圈说，你觉得现在的模型能力已经足以支撑超级应用（Super APP）的出现，只是这样的应用还没有出现。为什么会有这样的判断？

袁进辉：大模型在三个方面的能力取得了突破。首先是语言能力，即模型说话是否流畅自然，大模型的语言能力甚至比大部分人都要好。

第二是知识能力。现在模型里有了一些知识，虽然有一些所谓的幻觉，但有手段去解决，比如大语言模型+RAG。

第三是逻辑。目前逻辑推理还不是很强，这限制了模型在复杂场景中的应用，特别是Agent。

我想表达的是，前两个能力在很多应用场景里完全足够做出惊艳的产品。

《智能涌现》：但无论是上下文长度或者幻觉问题，现在都还没有解决得非常好。

袁进辉：上下文长度已经做得很好了，幻觉也有RAG等技术可以克服。

《智能涌现》：所以就差逻辑了。

袁进辉：是的。我相信，基于当前这些开源的模型，完全能做出新的Super App，当然，Super App还需要另外一些条件，我们需要等待。

《智能涌现》：我们首先来对齐定义，你觉得Super App的定义是什么？

袁进辉：大家心里会有个标杆，比如类似抖音、微信这种量级的，日活非常高，用户离不开的产品。

《智能涌现》：这都是用户数到10亿级别的应用了。所以你是觉得，只是还没有人做出这样的创新而已？其实还有人说模型能力不够——这是最近大家一直以来提到的一点。

袁进辉：我不相信模型能力还不够这种说法。现在除了PMF，还开始讲TPF（Technology Product Fit），其实产品上足够有创意，不一定需要最尖端技术，介于GPT 3.5和GPT 4之间的开源模型对有的产品够用了。

《智能涌现》：能举个例子吗？

袁进辉：比如陪伴对话，模型可以表现得非常自然。注意到最近美团推出的产品Wow，在海外上线后，有一位留学生使用它来解决生活中的烦恼。楼上的邻居深夜开派对，影响她休息，但她不敢去交涉，Wow机器人一直给予她合理和理性的建议，就像一位朋友一样。当她需要用英文与邻居沟通时，Wow立刻转换语言，帮她妥善处理了问题。

我认为，这个场景需要的能力，开源模型都可以做到。

《智能涌现》：所以，开源模型和闭源模型的差距是在不断缩小的？

袁进辉：开源模型追赶速度还是很快，这也说明最前沿的闭源模型的迭代速度变慢了。

《智能涌现》：参照云计算的发展路径，其实云计算到现在已经是一个特别标准化的事情了，很早就陷入到同质化竞争。大模型的稀缺性能维持多久？

袁进辉：开源模型实现了让模型触手可及，现在不是那么稀缺了。以后会不会稀缺，还要再走一段时间，看是不是会出现大模型厂商的收敛。

真正做到特别Top的模型非常少，或许有的模型厂商以后重心就会转成应用了，甚至像朱啸虎讲的，几年之后没有所谓的模型公司，都是应用公司。

《智能涌现》：所以拼到后面，大家要拼什么？

袁进辉：现在最容易想到的是钱和GPU，模型的技术传播扩散还是很快的，以后很多公司都会模型技术，最后比拼模型之外的能力。最后都会反映到数据优势上。比如现在腾讯出了元宝，基于微信生态的内容，元宝的效果就非常好。小红书也很有优势。

《智能涌现》：所以，你会更看好大厂做的AI应用吗？

袁进辉：短期是大厂，长期我相信还有其他力量会起来。产品的创意和洞察具有偶然性。既然是偶然性，从概率角度来看，一个微小的概率，叠加一个巨大的基数，就很可观了。今天的大厂里做应用的人，加起来可能一两千人，但他们之外，做应用的人可能是数百万之众。10年前，大家也不会想到有人能挑战BAT，但总有新的公司出现。

《智能涌现》：从环境上来看，这跟上一个时代的创业一样吗？现在无论是钱、人才，可能都不太能相比。

袁进辉：AI也会有所谓的“傻瓜窗口期”，在一定阶段内，可能都不会有多少人注意到他们。当年快手起来时，很多人对这个产品后知后觉，并没注意到原来五环外还有这么一个需求。

《智能涌现》：以后，国内有什么方面能够做到世界顶尖的水平吗？

袁进辉：客观来说，现在我们的芯片、模型，还不是世界顶尖。但在AI Infra领域，我很自信地说，我们肯定是世界顶尖，可以把国内外大厂的模型响应体验、水准进行直接对比。在全世界都有竞争力，所以我们也在做出海。

《智能涌现》：框架层，还是大公司主导的领域，比如Facebook的PyTorch、百度的飞桨等，很讲开源生态。中国公司想要出海，难度会在哪？

袁进辉：中国企业出海，开源是一个有效的手段，开源没有国界，一些中国的开源项目在全球也产生了影响。

如果产品界面足够清晰，足够标准，容易嵌入已有的生态系统，只要能让潜在用户知道且低成本尝试，就能和用户建立联系。

例如，MaaS产品就是一个API调用，界面非常清晰，所有供应商都一样，从一个地方迁移到另一个地方不需要任何改动。只要满足大家最关心的基础指标，如服务保障、响应速度、成本等，出海也相对容易。

《智能涌现》：现在，硅基流动的海外商业化进展怎么样？

袁进辉：我们的MaaS服务推出之前，软件订阅在海外就已经有10来个付费客户了。

《智能涌现》：以后的重心会放在国内还是海外？

袁进辉：客观来说，海外MaaS市场更大，国内海外并重。我们更熟悉在国内开发者社群做产品和推广，所以先从国内起步，海外产品也上线了。

《智能涌现》：关于商业化这件事情，有什么东西是你现在坚持要做的？有什么事就不做了？

袁进辉：关键的一点是，创业公司资源有限，必须找到一个非常好的点，深入挖掘，实现突破。切口可以小，但要切得深。无论这个点多小，都要在整个行业，甚至全球范围内确立优势。然后，将这种模式或方法论扩展到更广泛的产品或方向上。

而不是一开始就什么都做，但什么都不精，这是很多公司遇到困难的原因。

《智能涌现》：这种转变，跟现在的投资环境很有关系。

袁进辉：资金不是那么充沛的情况下，也逼迫着每位创业者去思考，在更加节俭的状况下做到引爆点。我觉得大家有一个共识，就是做强比做大更重要，更加健康。

《智能涌现》：你预计往后做的话，硅基流动还大概会需要多少钱，多少资源？

袁进辉：以现在的增长速度来看，我甚至冲动地觉得，不一定需要再融资，就能把生意转起来，而且建立起比预期还要好的循环。当然，理性地看，还是应该拿到更多的资金，这样做成功的概率更高，更有保障。

《智能涌现》：为什么现在就能实现了？

袁进辉：内外部条件都比较成熟。外部看，行业发展到了需要我们产品的阶段，市场需求旺盛，而我们恰好处在正确的位置，一切都变成了我们的助力。

内部看，我们现在的技术水平，在同类产品里也是世界上最能打的团队。商业化方面最近也有顶尖高手加盟。

预测长期变得非常困难

《智能涌现》：这次新创业，目标有变化吗？

袁进辉：和以前AI框架一样，我们面对的是赢者通吃的市场，一旦决定做这件事，目标就是做成全世界都需要的产品。不管我们开头多么弱小，相对于大厂资源多么匮乏，想的就是为全世界做最好的东西，这一点没有变。

《智能涌现》：跟当年创立一流科技的时候相比，你的心态有发生什么变化吗？

袁进辉：当年做OneFlow时还名不见经传，当时做这样的事情只有谷歌这种大厂，我们经常要说服别人，这事我们真的能干好。现在不需要了，好玩的是现在实现了声誉自由，很多人相信我们不仅能做，而且能做最好。现在追求的是更完整的成功，不光是技术有多厉害，还有产品、商业化、组织、文化等方面的成功。

《智能涌现》：什么事变得更难了？

袁进辉：做OneFlow时，我们提前多年就预判了一个趋势：大模型会出现，我们提前好几年为大模型做Infrastructure，而且很长时间内别人不信，只有我们相信，当时的窗口期非常之长，所以就很从容。

但现在，大模型就是明牌，节奏非常快，一天一个变化，想做非常长期的预测，变得非常困难。

《智能涌现》：五年之后，比如说你觉得哪些事情，但目前还是没有办法解决的？

袁进辉：有些能力也许根本不在大模型的能力范围之内。大模型的价值观是我们教给它的，它可能不会有真正的主观追求和情感。

另外，语言模型之所以先爆发，是因为自然语言有良好的数字化基础，有大量的语料，但迁移到其他领域，譬如和真实世界的交互——具身智能等领域，历史数据非常少，收集这些数据也面临很多困难，我不知道这些问题在五年内能否解决。

《智能涌现》：过去一年，市场上有没有一些共识的出现，是让你觉得特别惊喜的？

袁进辉：大家普遍开始认为应用非常非常重要，即使是OpenAI现在也开始亲自上阵或以并购的方式为应用产品做准备。

《智能涌现》：有没有一些你自己之前非常坚定相信的东西，在这一年里会发生一些变化？

袁进辉：一年前我高估了大模型的难度，没有预料到其他玩家追上OpenAI的速度这么快。应该有不少人和我一样想错了。去年上半年，绝大多数人还在猜测谁能搞出GPT-3.5，现在是家常便饭了，现在普遍要追上GPT-4.0，甚至Claude都已经开始超过4.0。

欢迎关注

世良情感网

对话袁进辉：必须实现Token自由，下一个“张小龙”才会出现|涌现36人

36氪