大模型时代,没有超级应用,只有超级智能,为什么?

极客公园 2025-01-06 17:06:18

在绘画、写文章、创作视频之后,AGI 应用的另一大场景是:编程。

曾经大家认为编程有很高门槛,但在 AGI 时代,它在变成人人触手可及的技术,越来越多的 AI 编程工具,让不会代码的普通人也能轻松制作 App。

我们如何摆脱基于移动互联网时代的想象,展开大模型时代新的可能性?未来是不是人人都能成为 AI 程序员,创造专属于自己的「个性化应用」?

对于这些问题,AIGCode 创始人宿文在极客公园 IF2025 创新大会上,给出了自己的答案。

宿文认为,在 AGI 的赋能下,AGI 代码可以把应用带入更有「个性化」的阶段,让每个用户可以实现自己小众但精准的需求,小团队也可以降低成本,快速迭代。这是宿文眼中编程的终极场景。

在宿文看来:

在互联网时代创造的应用、平台,并不生产任何内容,只完成内容的聚合和分发。 在大模型时代,大模型只有一个核心功能:在底层帮大家生成内容。 大模型时代刚刚拉开序幕,大模型的链条会长什么样,每个从业者还在探索,但这条链条可能不会长成上个时代的样子。 AI 编程将重塑软件开发行业,软件开发「又好又快又便宜」可以同时实现。 在大模型时代,没有超级应用,只有超级智能。

以下是 AIGCode 创始人宿文在极客公园 IF2025 创新大会上的现场演讲实录,由极客公园整理。

宿文在极客公园 IF2025 创新大会上进行演讲|图片来源:极客公园

从 Copilot 到 Autopilot

即将过去的 2024 年,大模型赛道引发了许多讨论,AI 编程是其中一个绕不开的话题。

大家都会说程序员被大模型改造得很深刻,全世界程序员群体有七八千万,占世界人口 1% 左右。这么厉害的软件代码改造技术,怎么让其他 99% 的人使用呢?

我们可以举一个例子,今天中午极客公园鹏总突然说这个活动办得很好,除了线上买票、线上收费,咱们线上直播行不行?会务组小伙伴崩溃了,去哪找直播管理平台,去哪找 SaaS,如果自己定需求,自己去做开发,至少几个周、几个月时间。

为了方便大家了解 AIGCode 的产品 AutoCoder,我们把这个平台给大家看一下。

AIGcode 演示界面|图源:AGIcode

这个产品完全面向不会编程的人群。

另外很重要的点,相比大家现在拿到的类似产品,主要围绕前端,但是 AIGCode 能够把后端和数据库一体化交付给大家,能交付出一个完整的软件工程。

做这个事的源头,跟我上一段创业有关系。我上段创业是做软件,有一个比较大的痛点是效率,我们经常提出一个需求,程序员要做几周甚至几个月,我们看到很多很好的技术栈,字节、阿里用得很好,但我们程序员用不起来,而且程序员成本很贵。

所以做软件,怎么做得又快又好又便宜,这是每个行业都面临的难题,不可能在一个维度上去解决。然而大模型来了,又好又快又便宜可以实现了。

当然实现过程中,目前主要有两类解决方案:一类就是 Copilot,就像名字一样的,帮程序员做辅助驾驶。另外就是我们想做的 Autopilot 这样的产品。

Copilot,目前主要还是围绕程序员工作场景在 IDE 里面做代码补齐,中国没有 IDE,甚至全球最主要的 IDE 80%、90% 的市场都在微软手里,作为初创公司很难在生态里 PK,只能绕开这个很大的生态竞争。我们在 Web 端做 IDE Free 的产品,端到端去做。我们用户会完全不一样,我们把用户群体从 1% 放大到 10%、20% 都有可能。

目前大家所用到的模型和 Copilot 产品,主模型能够用上最好的基模,不管海外还是国内,大家都在使用 Deepseek 这种水平的基模。要把代码链条优化得足够好,核心的技术都卡在模型上,所以自研模型不会套壳,不会用 Llama 去做,我们会有自己的模型架构解决这个问题。

还有很重要一点,传统软件架构跟生成式软件架构不一样,两大支柱做了算法和软件架构层面的创新,这是我们两块主要的工作。

右面是模型上的工作,核心解决两个点:又大又准,大的是「大上下文」,而不是后半段做 4K 窗口的串联。另外是新的网络结构带来的收益,还有一块是在软件结构的创新。

ChatGPT 的火爆正好两年多,我们其实站在今天这个节点来看,我们很憧憬大模型可以解决很多问题。

今天可以解决的问题主要在写字和画画两个场景,很多理科生的的问题,比如数学、编程这样的工作还没有解决得很好,我们遇到了很多其他问题,比如训练成本、资金、模型本身的泛化能力、训练效率等等。

目前网络结构在 Transformer 往前迭代,去年上半年提出的 MOE 这种架构也在改造整个大模型,在 MOE 之后还有 MMOE 等很多技术迭代。

我们率先使用 PLE 架构,核心是我们能够在网络结构层让专家或大模型,更有结构化地深度学习人类高质量样本。至于样本不够用的问题,其实不会出现,因为我们有很多高质量的样本,像论文、代码这些样本还没有被彻底学到。

为了让整个模型可以支撑起完整的代码生成,模型底层还要配套很强的算法,所以我们自己去做优化,包括不同的算力平台的整合,一体化平台上的算力加速,我们看到的技术卡点,都解决掉了。

我们自己的模型成果,也不会拿国内任何一个软柿子去捏,去对比,我们还是拿全球顶尖的团队的最新版本,最大参数量去做,我们在泛化指标上,是跟主流模型基本平齐的水平。

我们会在接下来三个季度把 13B 和 33B 也发布出来,给有模型使用能力的团队使用。

这句话是我们公司的愿景,刚刚主要解释了上半句,Auto-coding is AGI,我们看起来在解决代码编程的问题,但是核心问题是:能不能把端到端代替程序员写完代码。

Autocoding 加速「个性化」

这问题由 AGI 模型本身决定,我们发现,无论解决上下文还是网络结构、底层优化器、算力加速等等问题,都是目前 AGI 最大的痛点,这两个问题几乎是等价的,AGI 和 Auto-coding 基本上同一个时间点到来。

底层逻辑有两个:一、代码本身就是一种高质量语言,对于模型训练非常重要。另外,我们觉得 AGI 本身从一个新技术的出现,到两年前的 ChatGPT 进入大众视野,我们对它有很多憧憬,但它解决很多行业问题还不成熟,所以很多行业专家或者用户就会骂街,说这个工具不成熟,解决不了问题。

但是对于代码这个赛道来说,比较幸福的是:我们算法工程师,95% 都是程序员出身,因此思路上闭环很快,自己做得好不好,我们自己心里有数。

第二点是,这样的 Auto-coding 准备好后,解决问题时,怎么端到端,要打到哪些需求点?

用户体验上的核心之处:第一个点是准确,我们所有需求,怎么达成底层产品链条里的准确率?今天使用很多 Agent 类产品,第一个生成的版本很好,但细微的需求点没有办法实现。

第二个点是灵活性,在一个应用的生成过程中,最重要的是要实现各种各样个性化的要求,比如一个搜索框,能不能实现得足够灵活,能跟所有功能逻辑串通。

第三个点是完整度,这是软件工程上的工作,要解决工程的安全问题、部署问题。在这些工作做完后,这套方案就会变成基础设施,程序员的工作全部用推理算力成本就可以解决。我们想去做的 Personal App(个性化应用)就可以实现。

大家看到这个场景的时候可能会说:「我们手机里装的都是通用应用,我要一个 Personal App 做什么呢?」也有很多人问我:「你们要 ToB 还是 ToC?」

其实一个新的生产力工具出现时,这些问题都不重要,举两个很有意思的例子:

上周我去云南某城参加一个会议,会议组织方带我们去景区,很多人排长队在买票,但旁边有好几台自动售票的机器,我走近一看都开着机,机内装着 Windows 系统,这时候如果有一个管理人员可以提出一个售票系统的需求,都不需要在当地找程序员,用可以在 Windows 里部署一套售票管理软件,排长队买票的问题就很好解决。

另外一个例子,我跟一个朋友讨论播客,我们听播客很多都依赖于小宇宙这种播客客户端。在美国,很多主播会在 YouTube 上有视频播客的频道,国内很少用视频的方式做播客,这个朋友说我们不太想露脸,如果有一个卡通形象体出镜,去做视频播客,主播就会自然舒服很多了。

所以大家会发现,在我们场景里有非常多个性化应用的需求,哪怕是基于一个通用的平台,都可以加很多个性化的功能进去,这在编程的终极场景里都可以实现。

我们在小红书、知乎或者百度上,想搜索一个软件去解决我们一些问题时,本质上都是在提需求。如果这样的需求可以通过自动生成的代码和应用实现,而不需要用户去找各种各样的应用,找到后还要克制自己的需求。这两种体验完全不一样。

大模型的核心功能,究竟是什么?

关于代码生成和我们公司要做的事情,介绍到这里就结束了。接下来我有三个真话想说:

一、大家一直在追求 AGI 或者解决 AGI 问题,是很割裂的。比如很多大佬都会说,整个大模型目前还处于婴儿期,但是从 2024 年初到现在,大家都说今年是 Agent 元年,但一个婴儿期的工具怎么解决那么多问题?

我们经常听到说 Scaling Law 走到尽头了,但是囤卡乐此不疲,H100、B200,1 万张,10 万张,大几十万张卡,现在大厂甚至开始搞核电站了,包括 Ilay 最近提到的,预训练期结束了,其实里面没有什么干货,主要把样本学完,但是还有很多高质量样本,需要结构化输入进整个网络结构里。

所以有什么资源,大家就会依赖什么路径,对于我们这样的公司来说,我们看到更多的是网络结构层带来了非常大的红利。从 Transformer 出现,到前面几十年,大家对于通用人工智能的追求,都避不开网络结构这个环节,这一层获得的收益和待解决的问题更多。

宿文对大模型的核心做出预测|图片来源:极客公园

二、互联网或者移动互联网,给大家留下的思维惯性太强了,不管投资人、创业者、产业分析师,在大模型出现的第一天,很快就出现了一个分析框架,这个框架链条里有基模、OS、Agent、应用……但这些分类的基础,都是从上个时代复刻下来的,大模型时代的链条会长什么样,我们都不知道,它大概率不会长成上个时代的样子。

我们做的过程中发现,做 Infra 这一层、做基模、做应用,各个环节的基础链条都不成熟,在不成熟的时候,大家如果去等待链条成熟,或者自己找一段去完善,这个商业通路很难跑通,因为它很难把价值直接传递给用户。对我们来说,我们有能力把这些链条打通到一起做,而不会很刻板地停留在过去的技术思路里。

三、在大模型出现第一天起,就很多人提超级应用,这同样是互联网时代留给我们的想象。移动互联网时代,我们看到这种超级应用本身不产生内容,更多是做一个信息的嫁接平台或者一个中间平台,让我们搜内容搜得越来越快,给我们推荐信息越来越准,让我们交易越来越高效,但这个平台本身不会提供内容服务。

但是到了大模型时代,这些互联网产品特性基本都消失了,大模型只有一个核心功能:在底层帮大家生成内容。

这个竞争力一定是最底层的,未来超级应用长什么样不知道,甚至不会存在。但是超级应用底层是对超级智能的支持,这一点是一定避不开的,这是最内核的竞争力。

看起来我们是在做 AICoding,但其实我们是在这样一个商业场景里,去解决 AGI 自身的问题,我们朝着 AGI 一路狂奔,也是希望有更多小伙伴像我们一样,大家向上卷,向核心技术卷,最后把这些技术沉淀在产品上,提供给我们的用户。

谢谢大家。

0 阅读:2
极客公园

极客公园

极客公园是一个关注互联网创新的社区。