作者 | 由仪
编辑 | 葛覃
行业对于大模型的怀疑声渐起。不止发生在AI行业之外,甚至在AI产业也有一些严肃的担忧,大模型会不会像上次一样,数年喧嚣之后沦为一地鸡毛。
在更具远见的头脑中,大模型是一场轰轰烈烈又旷日持久的变革,一切充满未知,也足够吸引人,即便当下有这样那样的问题需要解决。
百度是坚定的AI革命派,一边探路一边踩坑,在最近一次百度内部总监会上,百度创始人李彦宏的发言,道出了当前大模型技术和产业落地的部分难题。
Scaling Law将不再正确?目前对 Scaling Law 的质疑声越来越多,但李彦宏认为,中国市场环境中其实很多有价值的数据还没有被真正应用于训练,比如直播相关的数据和多模态数据。
在他看来,强化学习和 Scaling Law 一样面临着算力和数据的瓶颈,未来更多训练数据会靠合成数据来补充,而且是要靠对技术或者场景的具体理解来合成。
TechForWhat也观察到,业界对于追逐Scaling Law的积极性在减弱,这是多方因素共同导致的。
首先,边际效应递减,随着参数规模不断扩大,性能提升的幅度逐渐减小,投入产出比降低,甚至可能因为过拟合等问题导致性能下降。对于一些特定的任务或领域,即使遵循Scaling Law增加规模,也无法达到理想的效果。
其次,正如李彦宏所言,算力和数据的瓶颈,按照Scaling Law规则,发展大模型需要大量的计算资源、数据收集和处理,这带来了巨大的成本。训练一个超大规模的语言模型可能需要数千台甚至数万台高性能服务器,仅有少数企业能承受。
最后是学术方面的担忧,大模型通常是一个复杂的黑盒系统,很难理解其内部的决策过程和推理机制,Scaling Law目前主要是基于经验观察得出的规律,无法解决模型的可解释性问题,缺乏严格的理论证明。
中国科学院院士梅宏此前也表示,不可解释性不符合人类发现知识、发明技术的基本逻辑,以Scaling Law为“信仰”的大模型训练,以过度的资源消耗为代价,难以永续,必有尽头。
”科学家在探索自然的过程中,一直在追求为世界建模,遵循的基本准则是简而美。我们在很多领域的科学研究中都在追寻第一性原理(First Principles),这些无不是在阐释相同的道理。然而,按照Scaling Law产出的结果,并不符合这个原则,而且,仅利用大模型通过“黑盒”的方式直接获得结果,而不去探索其背后的原理和规律,不是也不应该是科研锚定的目标。”梅宏认为。
大模型重构业务不及预期,智能体还未成为共识李彦宏表示,搜索的重构进度是比较慢的,但是他也理解该业务历史沿革周期较长,员工的观念难以在短时间内做出调整和转变。
实际上,百度搜索所面临的困难不是个例,新技术应用于新场景往往较为丝滑,而应用于旧有场景则会遇到多重阻力,在上一个技术阶段较为完善的核心业务,再被新技术重构更难。
对此,李彦宏的思考是,搜索和大模型的结合,更多应该是在智能体上。在他看来,智能体现在还并不是一个行业的共识,只是百度下的一个赌注,“我们会认为智能体未来会是内容、服务、信息的新载体,甚至是主要的载体。”
比如搜索作为一个主要通道,百度上有几十万家广告主,上万家在尝试接入商业智能体,让广告效果更好、转化率更好,然后更好地去触达和沟通目标客户,这些客户愿意用真金白银付费。
对于智能体的发展趋势,李彦宏判断,随着基础模型越来越强大,智能体的门槛会越来越低;但与此同时,智能体也可以把天花板拉得非常高,因为智能体的自我反思、进化、工具的使用等技术,都还非常早期,以及多智能体的群体协作,目前在产业上还没有看到实际的落地。
“今天世界上大部分方法论,其实还没有被数字化。" 他还提到,智能体上下文的语境中有个很重要的概念,叫“工作流”。工作流简单来讲就是”套路“,如果能把套路拆解清楚,那它就成了工作流,未来 AI 和机器就能把它自动化。
此外,结合其他行业来看,大模型重构业务不及预期由复杂原因造就,技术的成熟度和稳定性不足,业务需求和大模型的能力之间可能存在差距等,以及企业组织和文化的变革,这一过程可能会比较缓慢和困难。
智能云的标准化与定制化大模型喧嚣一年余,玩家开始收敛。全球范围内亚马逊、微软和谷歌,国内百度、阿里、华为、腾讯等,这些厂商的共同特点是大模型加公有云的组合,即智能云占据大模型行业主要声量。
云计算规模的扩大绕不过大项目,此前定制化也一度拖累了巨头云厂商,百度是坚定的标准化派。李彦宏认为,ToB 业务一定要标品化,项目制有很多需求,需要派很多驻场人员,要有很多的后台研发改造。
他提到,像Comate(大模型代码编程助手)这样的标准化产品,现在还卖不了多少钱,不够有竞争力,这种产品的起点比较低也是可以包容的,因为只要持续的投入,把它的门槛提高,拉大跟竞品的差距,未来还是一个好的方向。
百度ACG(智能云事业群组)主要聚焦中腰部的客户,在李彦宏看来,那些可以作为标杆的特大客户,很多时候从他们身上赚不到什么钱;特别长尾的也不好做——因为手上没什么钱。
而注重标准化,是希望形成滚雪球式的规模增长。但即便有了大模型的加持,百度智能云增速也不够可观。在最新一季的百度财报中,智能云录得营收51亿元,同比增长14%,这已经是近来难得的高增速。
同样是注重标准化,国外公有云三巨头和国内阿里云、腾讯云的规模,都要超过百度智能云不少,这或许也值得百度再思考,是否需要扩张规模,毕竟公有云本就是规模效应的生意。
百度是大模型历史长河的一粟,折射出当前产业的不同截面,且行且观,大模型最艰难的时刻还没到,也许跨过那一个点,才是新的生机。
参考文章:36Kr《李彦宏内部发言:「文小言」没必要像豆包、Kimi一样激进推广》