在过去的一年里,我们见证了一场接连不断的AI发布盛宴,从年初的Sora到年末的大模型春晚盛典。《AGI路线图》已经与大家携手走过了一年。在岁末之际,我们邀请了几位《AGI路线图》的常驻嘉宾,一同回顾这一年AI的跨越式发展,共同探讨了AI+SaaS的前景,未来Agent生命与AI生活新时代的愿景。
嘉宾
王喆特赞联合创始人
孔蓉天风全球前瞻产业研究院院长
胡修涵捏它智能科技创始人
主持人
徐思彦腾讯研究院《AGI路线图》主理人
精彩观点汇总:
AI发展关键词
胡修涵选择了“混搭”(Remix),强调多模态生成和AI技术带来的创新融合。
孔融认为“扩散”是关键词,体现在人才团队流动和应用场景扩展。
王喆选择了“ROI”,指出市场对AI投资的理性回归和对投资回报的关注。
Agent的定义和角色
Agent被视为一种技术实体,介于人和人工智能之间,帮助人类减少协作过程中的人际摩擦。
Agent可能会在未来组成新的公司形态,大幅减少人员需求,通过降低企业内耗提升效率。
人类将更多地与Agent互动,形成新的社交模式和社区,Agent可能成为人类体验的模拟器。
AI在垂直领域的应用
AIAgent将在企业服务和生成式AI交叉赛道中发挥重要作用。
AI在娱乐内容与社交应用场景中有广泛应用场景,特别是多模态技术和故事叙事的结合。
AI将在垂直领域(如法律、咨询、会计、广告等)取得突破,将打破专业服务行业无法规模化的局限。
经济与就业的影响
AI将取代部分工作岗位,但同时创造新的就业机会,如数据标注、陪伴服务等。
人类将更多地从事与情绪价值和创意相关的工作,形成新的市场需求。
AI的发展将推动经济的存量平移,而非爆发式增长,新的工种和服务将不断涌现。
以下是完整的文字回顾:
徐思彦:各位观众大家好!欢迎来到2025腾讯科技向善创新节!我是本场的主持人,腾讯研究院的徐思彦。今天给大家带来的是AGI路线图年度特别节目。
在过去的一年中,我们仿佛在一场流动的AI发布会的盛宴当中,今天我们请到的几位嘉宾都是AGI路线图的老朋友:来自天风全球产业研究院的孔融、来自特赞的王哲和捏它的胡修涵。
年末AI公司发布回顾
徐思彦:临近年末,各家AI公司都在赶在年底前交出自己的答卷。OpenAI举办了为期12天的精致发布会,而GoogleGemini也在12月推出了新版本。这些发布会带来了诸多更新。我们想请修涵先分享一下,在这些发布中,哪些给你留下了深刻印象?
胡修涵:好的。其实我们正好在年初探讨相关的AI发布的时候,是以Sora作为年头最重要的一些发布节点。到了年末,终于我们看到它发布和面向用户可以公开测试和使用了。过去这几周呢,确实大家很密集地发布了一系列的产品。相对来说,从产品侧Google做到的新的视觉模型,还有它的图像模型GoogleImageFX相关的产品demo,都是超出大家在行业内之前对于Google一些预期的。OpenAI相关的这些发布其实更多体现它的技术和产品结合,然后让更多人使用这样的一些企图。最近甚至公布了一个热线电话,让大家直接可以打的时候跟ChatGPT聊天,所以其实也是在给AI去做很多普惠大众的工作吧。那我们自己看到更多最近的行业界和学术界的变化呢,出现了一批生成开放世界、开放3d和4d环境这样子的一些技术。这些技术可能也代表着面向具身,面向整个物理世界进行模拟的一些AI技术的新突破。
徐思彦:其实我觉得从年初到年末,大模型的发布有一个越来越分散化、越来越专有化的一个趋势。从最早可能大家做的都是预训练基础大模型,到现在可以看到每一个公司它专攻的方向会有越来越大的差别。我听说好多技术的专家也对Google新发布的这个模型是评价比较高,那你们是从哪个角度去做的这个判断呢?
胡修涵:从视频模型的角度来看,无论是对提示词的遵从能力、多个主体之间的自然互动,还是整体的生成质量,都超出了大家的预期。图像模型方面也有一些值得关注的突破,比如新推出的GoogleWhisk能同时处理12到15个主体而不会混淆,并能成功生成图像。这些点上都体现了Google在整个技术的积累上还是非常令人敬佩的!
AI年度关键词
徐思彦:王老师是从大模型使用的不同用户分类来帮我们理解了过去一年大模型的变化。其实我记得在年初我们AGI路线图的第一期是深度解读了Sora的发布,那个时候震撼的感觉还是让人非常记忆犹新了。一直到今天年底的时候,我们觉得好像大模型已经成为了我们日常工作和生活的一部分。
在这个时间点呢,我也想让各位嘉宾可以用一个词来总结一下过去一年大模型的发展。
胡修涵:如果是一个词的话我会选择“混搭”(Remix)。这里面有几层含义:一个是关于模态的生成在这个过程中是被更好的混合起来的。就是整个的模型大家可能会谈到更多原生多模态的大模型。输入是被混合的,输出也是被混合的。那多样的输出其实造就了一些应用能够传递更好的内容生成质量,和更好的一些visualstorytelling(讲故事的能力)。这样子的一系列的能力,使得真正的大众更容易去认可和接受AI生成的一些结果。
第二层的解读呢,我们可能会发现AI从整个的能力角度上更擅长去组织输入信息的多样性,并且找到其中的潜在底层联系。事物的联系本身是广泛的,而且中间的矛盾的融合就孕育着创新。所以,当他能够把如此之多的东西通过混合并且再次解压缩,模型本身的训练过程是一个压缩,那生成的过程就是一个解压缩的过程。在这样一个输出的结果的创新融合中,可以找到AI真正这一代所谓的生成式的价值,而不仅仅是依赖于让模型本身自己基于输入的多样性来进行创新。
那第三点的话,其实就是更多的人能够参与这个AI的浪潮吧。年初我对于AI技术的人群渗透是比较担忧的,因为去年一年的情况下虽然ChatGPT在科技圈很火,但整个的泛人群中的渗透率其实是相对很低的。在这一年经过很多的大厂、创业公司、还有像特赞这样为企业去服务解决提供方案的这些公司的努力下,整体大众的认知和渗透度上终于达到了一个早期技术上比较有机会产生新的创新的一个机会点。所以整体从这几个角度来说,我都觉得“Remix混合”或者“混搭”是一个很重要的关键词。
徐思彦:很有意思,就是修涵选的这个关键词“混搭”,是有一些意料之外,但也是情理之中。因为很多创新都是从remix当中诞生的,现在大模型也到了一个可以吸收更多多元的元素、模态,然后创造出不同的表达形式。那接下来先请孔老师来分享。
孔融:2024年从AI的维度来看,关键词是“扩散”。这体现在两个维度:首先是人才团队。从去年年底OpenAI核心团队的变动开始,今年他们的人才流动十分显著——有人离开,也有新人加入。这种人才团队的流动促进了技术的扩散,形成了人才跟随技术发展,进而推动AI扩散的趋势。
第二个维度是应用场景。2023年时,人们主要关注大公司在AI领域的投入和发展,同时也有创业团队逐步涉足,但商业化前景仍存在诸多疑问。到今年下半年,这种扩散明显加深——尽管许多公司的商业化仍处于早期阶段,但在不同场景中,各家公司的商业化能力已经开始显现。因此,从2024年的角度来看,“扩散”确实是最贴切的描述。
徐思彦:确实,这个现象给我们留下了深刻印象。过去一年,各大AI公司之间出现了频繁的人才流动。与2023年相比,各公司的研究方向也不再高度趋同,而是各自确立了独特的发展重点。这种分歧从现在开始显现,很可能在明年进一步扩大。我们非常期待看到这一领域的未来发展。下面请王老师分享。
王喆:我想到的一个关键词是ROI,即投资回报率。2023年和2024年最大的变化在于:2023年大家听到很多信息,资本方纷纷下场融资,对整个AI领域持极度乐观态度。到了2024年,市场开始回归理性。从资本端来看,无论是对底层大模型还是上层应用的投资,都变得更加理性。大家开始思考AI能开拓的存量市场和增量市场究竟有多大,整个AI产业的资金规模是否合理。
从企业端来看,很多做基础大模型的企业对预训练的态度也发生了变化。由于每次完整的预训练都需要巨大投入,无论是资本方还是创业者,都在认真权衡是否要进行预训练以及预训练的深度。
上层应用公司则希望token价格更加合理,我们也看到token和算力的价格正在向更高ROI发展。品牌端的变化也很明显:AI刚出现时,品牌们期待它能大幅降低成本,而现在则更务实地追求合理的成本降低。因此,我们看到AI应用公司的定价模式更加多元化,不再局限于售卖token,最近几个月更流行按交付结果收费的模式。这反映出客户更深入地理解了AI技术,更关注它如何为企业创造直接的商业价值,实现合理的投资回报。这就是为什么我选择ROI作为年度关键词。
热点AI赛道
徐思彦:每次技术浪潮都会经历从泡沫到理性回归的过程。去年,业界热议的一个核心问题是scalinglaw是否已经触及天花板。对于小公司而言,与其投入巨资进行预训练,不如在现有基础上寻找其他发展路径。企业客户的态度也在转变——从最初人人都想尝试大模型,到现在更理性地思考每个场景是否真的需要大模型。在这个过程中,市场诞生了众多细分赛道。我们不再局限于讨论通用型预训练大模型,而是将重点转向不同的专业领域,比如具身智能、视频生成,以及刚才修涵提到的visualstorytelling(视觉叙事)等。去年可以说是百花齐放的一年。面对如此多样的发展趋势,我也想跟各位嘉宾来探讨一下,你们最关心的是哪个赛道和领域。
胡修涵:首先,我最关心的自然是我们创业公司所在的赛道和领域——娱乐内容与社交应用场景。在这个方向上,我们观察到业内在探索初期进行了多种尝试,包括开发聊天陪伴式的chatbot互动,以及融入多模态技术来让角色更接近真实的人,更像完整的数字生命。到年末时,业界开始考虑将这些技术与storytelling(故事叙事)和交互式体验相结合。
我们发现,早期的尝试中,许多人过度高估了当前技术的单位成本效益、整体推理能力以及agent、LUI等技术能力,却忽视了基础的信息组合处理。更重要的是如何在较低的AI环境成本下模拟社交互动和内容制作场景。因此,尽管出现了许多富有创意的设想,但都未能成功落地或实现爆发式增长。
目前,我们主要关注两个关键点:一是底层技术的进步是否真正提升了多模态生成的丰富度和易用性——用通俗的话说,就是生成内容的“抽卡”次数要达到用户可接受的水平。二是多模态层面的生成成本能否降到比早期移动互联网的流量费更低。这两点是我们期待在技术上取得突破的关键。
徐思彦:好的,谢谢修涵!孔老师你作为行业的资深观察者,你是站在一个比较客观的角度看了那么多包括端测模型,哪些赛道是你自己会重点关注的?
孔融:作为这个领域的研究观察者,我们接触到的场景较多。当然,创业者可能有更深入的观察和亲身经历来帮助我们理解。从我的角度,我主要关注AI与不同领域的结合。展望未来,包括2025年,我依然非常看好AI和智能体这个赛道,特别是垂直领域SaaS的发展机会。这也是近期业界持续讨论的热点话题,也是我们对2025年最看好的方向之一。
回顾今年,最令人印象深刻的是年中时期对AI发展前景的普遍质疑。大家发现,虽然各大科技公司在持续加大capex(资本支出),但商业化收入却比投入少了一个数量级。这种情况在年中确实让业界陷入迷茫,这个问题在国内外都普遍存在。
不过到了前三季度,从美股上市公司的财报中,我们看到了积极的变化。虽然AI相关的商业化收入尚未达到很大规模,但越来越多的公司已经开始通过AI获得收入增长。这也回答了产业界和投资界最关注的问题:在巨大投入之下收获较少的情况下,AI的发展叙事是否能够持续?这个转变让我们对未来两年的发展更有信心。
另一个值得关注的点是大洋彼岸即将到来的大选,以及马斯克与特朗普的关系发展。有人称他们是“第一兄弟”。但无论如何,这都可能让我们对全球科技发展前景更加乐观,因为马斯克将影响所有前沿科技的发展方向,包括AI。从这个角度来看,我对未来五到十年的科技发展更加乐观,这种影响将是全球性的。大洋彼岸对AI的态度很可能会发生重大转变,这将促进AI在各个场景的落地应用。这是今年给我留下深刻印象的第二个重要观察。
徐思彦:你觉得在去年大家都对scalinglaw这个技术大规模投入产生质疑的情况下,AGI还是很多公司追求的目标吗?
孔融:我觉得其实对于不同的公司,他其实追求不同,就是更多公司我觉得可能也在追求商业化的产出,然后如何让自己活下去,AGI当然是更远的一个未来的目标。但是这个阶段,当大家都在质疑商业化的时候,其实如何产生商业化和产生商业价值是在我觉得24年大家最关注的一个话题了。
王喆:我最关注的方向是孔老师刚才提到的AIagent。有人称之为垂直领域的AI,这与我们所处的企业服务和生成式AI交叉赛道密切相关。SaaS是一个很有趣的领域,在中美两国呈现出不同的发展轨迹。美国的SaaS在过去近20年里表现出色,无论是资本活跃度、投资回报,还是企业发展都相当可预测。许多SaaS公司通过融入AI能力获得了更好的增长。
我个人特别看好agent这种产品形态,不论它被称为“SaaS+AI”还是垂直领域的AI。Agent的概念虽然被广泛理解,但其本质是通过调用基础模型的能力,降低用户使用门槛,并实现低人工参与的工作流程。在AI出现之前,企业(特别是ToB领域)的数字化软件主要致力于促进人与人之间的协同。而agent的出现可以显著减少协作过程中的摩擦,因为它能减少协作所需的人数。
由于每个人的思维方式不同,多角色协作不可避免会产生沟通和理解上的摩擦。通过引入agent,我们可以将五个角色减少到四个,或将四个角色减少到三个,从而大幅降低这些摩擦。这对提升企业效率和人均产出都有巨大潜力。因此,我预计AIagent将在2025年迎来重大突破!
关于Agent的定义和角色
徐思彦:关于agent这个话题也是今年热度非常的高,硅谷好多创业公司都在做agent,其实关于agent的理解就像你刚刚提到的,不同的人可能会有不同的理解,有的人是把它作为一个AI应用的承载,一个agent就是一个APP的感觉,然后也有人会把agent理解成一个更加靠近AGI的甚至带有某些生命的东西,因为它的中文翻译也叫智能体,涉及到很多跟人的协作等等。
王老师你是怎么理解agent,你觉得未来它是往哪个方向的发展可能性比较大呢?
王喆:我可能会有一个比较独特的视角来理解agent。因为你看agent这个英文词它最朴素的意思是一个代理人。其实刚刚讲到整个AI的产业,我想抛一个问题就是,但这个问题的视角可能会很独特,就AI到底是服务谁的?是服务人还是服务机器的?为什么这么说呢?因为你看过往我们这代人经历了几个比较大的技术红利,不管是互联网还是移动互联网,都是因为突然间有了很多用户的增量。因为用户和人口的红利带来了更大的市场和爆发。我们今天看到AI的时候你会发现,现在AI有的用户都是移动互联网和传统互联网的用户。因为大部分的用户都已经上网了,今天你只要连接到互联网,你总会接触到某一款应用里边用了某一点AI。所以当AI进入到这个产业里,没有巨大的增量。那我觉得增量来自于什么呢?那可能会有更多的机器,或者是agent会消耗token也好,或者使用大模型也好,不管是这些中间的应用、机器人,或者是一些纯虚拟化的agent,他们可能是真正调用底层大模型的能力。所以我的视角对于agent理解是Agent是作为一个技术上的一个实体,然后最先去消耗token,然后他作为一个代理能够去帮人完成某种任务,他作为一个中间态。所以从这个角度来讲,Agent他会介于人和人工智能之间,它来消耗更多的token,更知道怎么样去处理不管是token还是prompt。所以这些代表的机会他们能够释放出更多的产能,以及可能会带来更多的增量用户,这个是我自己对agent的理解。
徐思彦:王老师带来了一个非常新的观点,大家应该在其他地方都没有听到过,就是agent的用户可能并不是人,而是机器。它是人和AI未来中间的一个代理,并且可能可以帮整个AI和人的协作去减少更多的摩擦。
孔融:不只是人与机器之间的交互变化,还有就是机器与机器之间的交互变化。
徐思彦:这是一个完全新的一个课题。
胡修涵:AI里面最像人的一层。
王喆:对,我记得去年硅谷有个统计数据,显示投资者投了很多专注于单一工种AI的公司,比如能完成客服、销售或开发工作的AI。不过仔细想想,现在的agent只能完成单个人或单一工种的工作,但未来可能会有突破性发展:几个agent结合在一起就能组成一个完整的公司,这可能会彻底改变现有的商业形态。
公司这种组织形式已有几百年历史,组织带来了人与人之间的摩擦,为了减少这种摩擦,我们发展出了管理学。为了更好地实践管理学原则,我们又发明了软件和数字化工具。
如果说人与人之间的摩擦是影响企业效率的主要原因,那么为了提升效率,未来的企业可能会大幅减少人员,转而由多个agent组成。这样的企业可能只需要一个人来管理,甚至可能完全不需要人工参与。我认为这种全新的公司形态很可能会出现。
孔融:我听王老师说到这一点,我自己小小的概括了一下,我觉得可能王老师要表达的意思是agent最主要的这个作用之一就是降低企业的内耗。
王喆:对是的。
徐思彦:我记得科斯最早对企业的定义,就是企业主体内的摩擦是比企业和外部之间要小。那有了agent以后,也许我们现在企业的根基形态都会有变化。
胡修涵:这也是企业规模无法扩大到一定范畴的原因。本质上当企业规模扩大的时候,它的内部交易费用就大于外部了,这是科斯定理。
王喆:是的,你想想看,过去很多专业服务公司的估值一直不高,原因在于这类服务随着人数增加,人均收入和利润就会下降。这是因为规模扩大会带来更多的内部摩擦。不过现在,随着AI的出现,传统专业服务行业正在经历巨大变革。无论是法律、咨询还是会计,包括我们熟悉的广告行业,这些过去依赖人力密集型的行业,都在发生改变。有了AI的加持,很可能会打破专业服务行业无法规模化的传统局限。因此,我认为这些行业都面临着重大的重塑机遇。
徐思彦:你说专业服务无法规模化,我想到我们今年年中的时候报告里也提出了一个词叫机器外脑。过去我们有一个预设,智力是一种稀缺资源,因为一个社会里面他聪明的人是有限的,所以各大公司才要在校招季去抢一些优秀的毕业生。但是当我们有足够的机器来变成智力资源以后可能就不稀缺了,就会有很多新的模式诞生。
还有一个就是你刚刚讲的商业模式。刚刚孔老师和王老师都有谈到saas的一个商业模式,但是我还看到了一个预测是说,agent带来的商业模式跟过去的saas是不一样的,最大的区别可能是它更像一个人力的外包。以前的saas是一个人比如说有一个账号,按照人头去计费的,而有了agent以后,因为他完成的是一个工作流,可能就是按照一个劳务外包公司去收费去定价,按照每个工作流去定价。这可能是跟现在的软件服务公司最大的商业模式的不同。
孔融:我觉得其实从前一段时间也看到了很多海外包括国内都有agent相关的一些产品发布,不管是在PC端、手机端,包括一些C端的场景,但是我可能还是更看好B端的应用。因为我们看B端的很多工作流,它是确定的一个任务,然后让比如说agent去执行,但是C端的很多需求我觉得可能还需要一段时间,有一些是比较个性化的一些需求。所以从明年的维度去看比如说agent跟一些场景的结合,我觉得可能TOB的机会看的更清晰一点,包括王老师所处的品牌宣传,包括电商的场景。不论是我们看到的像客服、广告、售后,其实有很多确定的任务环节是可以通过agent来进行完成的。所以那么多agent相关的AI的一些场景里边,我觉得明年像广告跟电商里面的机会可能更容易落地,当然这个也是跟大家一起探讨了。
王喆:这个我觉得蛮有意思的,你会发现TOC的应用经常大家会说你要比原有的解决方案好十倍,才能带来爆发式的增长和更好的留存。在TOB的领域里,你只要比原来的解决方案好10%,就会有企业开始尝试。所以在TOB的这个落地里,大家接受它是渐进式的进步,而在TOC的应用里,大家其实产生了一个期待叫做,你一定要比我现在的接受的服务要明显的好,我可能才愿意留存。我可能愿意尝试一次,我觉得他好的差不多,我也懒得去接受一种新的用户习惯和一种新的用户网络。而在TOB里,我们能明显的感知到一个项目有100万,你能帮我省10%也是省,省30%也是省。所以TOB的这些客户对于新技术产生的结果,大家是有很大的包容度的。在一个早期的技术的演变过程中,包容度决定了这个领域里新技术能够多快的能够去扩大它的市场占有率。
胡修涵:从这个角度来看,C端的一些场景类别的包容度还是很高的。特别是在娱乐和社交内容型场景中,虽然核心的限制可能在于单位成本,但整体包容度确实很高。说到agent这个话题,我最近听到一句很有启发的话:与其问agent能为你做什么,不如问人类能为agent做什么。这当然带有一些碳基和硅基的玩笑性质,但背后确实隐藏着一个有趣的问题。我们不妨把当前的agent视为一类待塑造的新生命体,是人类未来将持续互动的一种存在。
从人类体验和经济角度来看,agent必然是其中的重要要素。人类天生就喜欢与类人的生物打交道,通过这种互动获取内容和人生体验。在这个层面上,每个agent都是你体验层面的代理人,是在有限生命中获得更多人生体验的最佳载体。虽然我们无法延长寿命,但可以在有限时间内获得更丰富的体验,这也是人类的固有追求之一。
因此,agent需要学会更好地取悦人类,以某种代理身份来增加人类的长期体验。即使在工作场景中的agent完成了所有使命,人类仍有互相娱乐这样的需求存在。所以在当前阶段,任何致力于培养优质agent的尝试都是很有价值的。
王喆:对,我觉得修涵说这个特别好玩,因为我手上拿着一个QQ的公仔。你想在20多年前我们第一次玩QQ的时候,其实你并不知道QQ里边另一个人是男是女。因为最早大家刚开始聊天的时候就是匿名,那你想今天我们在这个所处的时代,你去聊天,对面你也可能不知道他是人还是agent。然后还有可能会有一段时间里都不明确,然后它慢慢在实名化,可能会有agent的社区。比如这个社区里就不允许有人加入。可能有一些社区是人和agent是共存的。然后有一些社区是以真人为主,不太鼓励agent进来的。这些都是有可能的,因为你想我们回看历史,你根本不知道对方是谁,很有可能现在你并不知道对方是不是人,然后大家慢慢去接受。反正是人也好,不是人也好,他能给你带来情绪价值都是好的交互和好的体验。
徐思彦:我记得我们之前看过一个研究,就是图灵测试已经失效了。如果按照以前的图灵测试标准的话,可能agent也都是能通过图灵测试的。刚才修涵提到了一个观点我觉得也比较有意思,agent是人类体验的模拟器。刚刚TOB派,就是两位关注B端生态的研究者,大家更多关注的是生产力的关系,然后修涵因为做的是C端的应用,所以可能更偏体验派。我听到过一个观点,就是说可能比起给出某一种生产性建议,agent更适合去模拟现实生活中的一种可能性,这种可能性可能你要花很多成本才能去模拟出来,但是在AI里面就可以大大的降低成本。
胡修涵:对,其实本质这个模拟体验的需求从我们一直谈元宇宙那一代的任何产品大家都会有感触。最近抖音的创始人也提到,一定程度上现在存在一种从内容的创作工具侧走向创造和体验的范式变迁,也就是说你体验和消费的情绪价值也是来源于你自己主动参与的创造。这件事情最实际的例子就是搭乐高和自己拼宜家的家具,这些事都会让很多人感受内心平静和治愈。所以这些过程中,其实情绪价值是通过你和某个客体在过程中去完成这种体验消费。这些消费相对来说是对于纯粹被动的去接受某个内容消费的一种反抗。在这个层面上刚刚说的agent代表的一种体验上的可能性,也确实是其中最有意思和面向未来的一些东西。
徐思彦:好的,谢谢修涵。大家其实刚刚都有分享过自己比较期待的场景,或者是使用过比较有意思的AI的体验,那接下来我们更关心的一个部分就是除了这些在商业视角上的场景以外,你们个人跟AI是怎么样互动的?
修涵已经提到了人跟AI的共创是非常重要的,那你是不是有兴趣去训练一个自己的AI模型,或者你有一个什么样的计划慢慢的去跟AI融合呢?
胡修涵:我想的不只一个。我们正在做的捏它的产品就很典型,很多的用户和同学主要是一些大学生为主的一些同学,他们可能会自己抛出一些话题,然后这些agent甚至也会在他们抛出的话题底下去给他们一些帖子回复,然后并且生成一些对应的场景上的一些图像,那在这个过程中,一定程度上这一类agent已经线上化去替代了一些小猫小狗的体验。大家都在那儿围观某一个角色在说一些很有趣或者是犯傻的话。大家可能为此也能建立一些积极的社交上的链接,所以在这样的一个体验中,大家都会一起去教这些小猫小狗或者是这些Agent的角色来去更好的体现自己的特点。所以在这些过程中,可能你需要的也不只是一个,毕竟很多人都会养很多只,也会有很多个代表不同自己的个性和侧面这样的体验的载体或者对象。
徐思彦:用修涵的话来说,就是培养你自己的agent。孔老师呢,你自己用AI的程度怎么样?你有没有特别的场景去使用它?
孔融:我平时因为工作需要处理大量信息,所以我经常使用AI。最近我重新开始学习,报名了斯坦福的课程。在学习过程中,我与AI的互动会更加频繁。从目前情况来看,我在教育领域使用AI比较多,同时在处理金融相关信息时也经常使用,比如分析财报和电话会议等。第三个方面是作为家长的角度。对家长来说,辅导孩子做作业是每天的重要任务。我们购买了一些智能硬件来辅助这个过程。如果能有一个AI助手按照家长的想法来辅导孩子完成作业,这将非常实用,是一个真正的刚性需求。
王喆:我有一个四五岁的小朋友。我们这代人常说比我们年轻的是“互联网原住民”,而我认为我的小朋友这一代是真正的“AI原住民”。当我们在讨论AI与人类的关系、图灵测试、AI的发展潜力以及它对人类的潜在威胁时,我的孩子却是天生就在AI世界中成长,周围的设备都已具备人工智能和大模型的能力。
在与他的互动中,我为他制作了一个AI代理(agent)。通过观察小朋友学习AI的过程,我发现了孩子与AI有许多相似之处。比如,我们四五岁的小朋友在学习时也会产生“幻觉”,在表达时会不小心说错话。举个例子,他会说“一块鱼”而不是“一条鱼”,这种错误模式与AI早期训练时的表现很相似。
有趣的是,当他在玩agent时,我帮他克隆了我和他自己的声音。令人惊讶的是,他特别喜欢与自己的声音对话。对我们这一代人来说,与自己的声音对话可能是种奇怪而陌生的体验,但对小朋友来说,这是一件新奇有趣的事情,他甚至会主动给自己的agent打电话。
小朋友经常问两类问题:一类是百科知识,比如“为什么天是蓝的”、“为什么会有温度”;另一类是充满想象力的问题,当他在读书时遇到新奇的事物就会展开联想。这让我深刻意识到,这一代人确实是在AI环境中自然成长的一代。
对我自己而言,就像修涵所说,我们每个人都有ToB(工作)和ToC(生活)两个维度。在工作中,我希望agent能帮助提高效率,减轻工作负担。而在生活中,我期待拥有多个不同的agent。我很认同大家所说的agent是一个模拟器的观点。我们常常会想,如果人生可以重来会怎样?通过agent,我们可以模拟不同的人生选择:假如当年没上这个大学会怎样?假如当年没回国创业又会如何?这些人生的分岔路口都可以通过agent来模拟。
胡修涵:在我们的产品中最常见的一类创作主题就叫“whatif”。
孔融:你的“人生沙盘”。
徐思彦:这个词取得很好,创业公司应该留意一下。
胡修涵:对,所以我觉得其实小朋友跟自己的声音对话,一定程度上他可能觉得是在跟一个更好和更全能的自己在对话。
王喆:跟一个更会考试的自己哈哈。
徐思彦:对,或者是理想版本的不同平行世界自己。那可能就是在模拟的前一步,我们是需要建立一个自己的AI版本或者克隆的自己。可能修涵做这个会更有基础一些,你现在有一些什么尝试?
胡修涵:我们自己社区中最火的原声角色就是一个创作者塑造了自己,这就是一个可以战胜其他类似初音未来这种热度的角色。所以大家确实是喜欢在某个层面上塑造自己。然后想象不同的东西。但另一个层面,他当然也想把他周围相关的所有实体和朋友们也一起带进去。这样子的话,不管是揍他们,还是和他们一起玩,都挺开心的,对。
徐思彦:不光是模拟了自己,还模拟了自己和社群,也许以后有一个agent版本的我们四个人,就会有一场更有意思的对话。
孔融:想起来我们大概两三年前提到的,现在大家提到比较少的元宇宙。其实AI可能最大的应用场景包括跟agent的结合,可能还是回到了元宇宙。但大家现在已经比较少提到这个名词了。
徐思彦:元宇宙基本概念就是一个开放世界。以前我们谈论的开放世界仅限于人为设计的角色和固定的路径,但加入AI之后,它的生成属性让这个世界变得更加开放。它不仅能够适应开放性需求,还能与每个人建立独特的联系,创造个性化的版本。我很期待这样的元宇宙出现。在此背景下,AI公司未来追求的是什么呢?
胡修涵:我们主要从技术的成本结构角度来考虑这个问题。从整个AI赛道来看,从去年到今年,我最直观的感受是语言模型在特定智能水平上的单位成本下降了约160倍。这意味着,过去CAI类应用无法承担的对话轮数,现在变得容易支撑起来了。在C端和大规模社会应用方面,单位成本是大家在看技术demo时容易忽视的关键问题。
我可以举个典型例子。如果从图片生成领域来看,当单位图片生成成本接近广告时代的水平时,意味着一次广告曝光的收入可以支持生成20到30张以上的图片。去年看一次广告只能生成四分之一张图,而今年看一次广告产生的收入可以支持生成20到30次。这就是我前面说的,当单位成本接近早期移动网络流量费用的节点时,底层成本结构发生了革命性变化。不过在视频领域,还没有达到这个临界点。
从整体格局来看,以中美为主的各国在AI领域都投入巨大。这些投入可以类比为修建基础设施,比如公路和发电厂。这些前期投入最终需要通过应用生态来获得回报和补贴。展望明年,我们预计单位成本还会下降两个数量级,使用量会提升两到三个数量级。同时,由于成本下降,应用场景的覆盖范围可能会扩大十到二十倍以上,让许多原本无法实现的应用变得可行。整体来说,token消耗量应该会有万倍级别的增长,这是我们认为相对合理的预期。
基于这些变化,我们需要提前思考:在这条“高速公路”修好之后,什么样的应用能够最大程度地利用好这个基础设施?这是我思考整个产业结构时最关注的核心问题。
徐思彦:修涵提的这个GPT又能够通过哪些考试,能够取得多高的分,还是一个智力水平上的关注。但是另外一个其实影响到它应用的扩散点就是这个单位成本。
胡修涵:我再稍微补充一点,因为我们其实今年还有一个主题就是这个推理时的scalinglaw,意味着推理的时候要比以前一次消耗大量倍数以上的token。原来可能只是消耗一份的,现在可能一次推理就要消耗百分到千份以上。这个过程中也有很明显的乘数效应,所以综合起来这个部分的数量级变化应该是整个行业结构在明年出现的最可观的变化。
徐思彦:那是不是预计明年就会有很多应用的爆发呢?
胡修涵:我觉得在不同场景下会出现非常有趣和完全不一样的尝试,对。
孔融:还有要补充的是我们看到计算能力和更好的芯片会推出。这里面其实对于明年应用的机会也是非常重要的一点。
AI带来的行业变革和就业新机会
王喆:AI会改变一切吗?我目前的观察是,还看不到明年产业会有巨大的增量。我也没看到AI作为一个新技术能凭空产生一个全新的产业。目前唯一可见的例子可能是像聚生智能这样的新兴企业。这类企业通过融资消化了大量AI成本,在融资充裕的产业间形成了自我循环。从整体来看,无论是消费端还是供给端,我都没有发现任何一个群体在明年可能出现收入倍增的迹象。对很多产业链来说,AI技术更像是一种存量平移。在这种存量平移的情况下,可能就不会出现爆发式增长。这是我的看法。
徐思彦:你说这个存量平移可能更接近于传统产业a部门的成本转移到B部门。
王喆:是的,原本有些人在从事某些工作,但随着AI的出现取代了这些岗位,这些人转而去做其他工作。这样的小型就业机会会不断涌现,同时也会产生很多新的工种。比如说,随着AI产业的扩张,会产生一些服务于AI产业的新工种。比如随着AI产业的发展,数据标注产业也会相应扩大。由于标注人才变得稀缺,一些人可能会转型成为数据标注领域的专业人才。
徐思彦:说到新工种的产生,这也是我们最近经常讨论的话题,这可能是C端用户最关心的问题之一,对此你有什么见解可以分享给大家吗?
王喆:我觉得人类本质上需要情绪价值,也愿意为情绪价值付费。随着AI替代了某些工作岗位,可能会催生出一些专注于为他人提供情绪价值的新型工作。比如陪伴服务或其他专业服务领域,会有新的从业者加入,形成新的市场需求。
徐思彦:修涵,你有没有关注过你的用户群体——现在的大学生,对他们来说,哪些机会消失了,又有哪些新的机会被创造出来?
胡修涵:他们最大的损失当然是在现实就业市场上与前辈们一起职业发展的机会。但从我们的观察来看,他们的社会组织能力更强,在消费文化和引领文化方面的能力也更突出。他们能在更早的阶段完成对自己社会角色的模拟和扮演,在学校时期就已经具备这样的能力。因此,他们很可能确实更擅长创造情绪价值,这一点我很认同王老师的观点。作为情绪价值的创造者,他们需要在这个过程中形成自己的经济循环,但这个经济循环的成熟速度可能会慢于他们在娱乐和自我需求价值方面的探索。这就像我们看到的短视频应用,先是形态发展成熟,之后才逐渐形成完善的商业经济和电商模式。所以在这个过程中,市场需求的满足与商业化、货币化效率的实现之间存在着时间差。
徐思彦:对,像新的工作机会可能要在平台型的机会稳定了以后才会产生新的模式。
胡修涵:就是初期干这些事可能更多的是为爱发电,后期才能真正支撑他们养活自己,通俗一点来说的话。
王喆:对,其实有可能会出现娱乐工作化。过去打游戏是一个纯娱乐的事儿,后来游戏有了专业玩家,有了直播,有了电竞。未来我们今天所有大家所谓的娱乐消费的行为,很有可能会产生一个新的产业。这个产业叫他们要相互竞技。比如现在可能只有少数的游戏会有专业玩家和竞技生态和比赛。那如果真的比如说效率提升了,你有了更多时间可以玩,那是不是有更多的娱乐游戏可以专业化?你在玩儿的过程中,虽然你在玩,可能对于别人来说也有可能这是一种工作,比如会花钱付你钱来看你玩,只要你玩的比较好。
胡修涵:只要你打造的agent技术比较高。
徐思彦:我听了大家讨论,仿佛是在说以后工作就是agent和agent互相协作去提升效率,然后人最大的价值就是给其他的人提供情绪价值,这可能就是agent暂时跟人差距比较大的。
王喆:也有可能是agent赚了很多钱养了你,他说他要付钱给你来玩,从而他有新的数据样本可以学习。
孔融:刚才其实讲的还是说工作时间可能更少,由于agent或者是AI来帮助你完成一些工作,然后娱乐时间变多了。因为人就24个小时,所以娱乐那部分怎么去填补其他人的娱乐时间,这可能是你的一个价值,这个可能是第一点,就是刚才提到的。
然后从我理解的维度去看,未来我们的工作或者就业可能还会往哪个方向?我们现在其实能看到,对于创意,从创意到点子再落地执行一个方案,再变成一个组织,这个点子的价值到底有多大?如何为你的创意合理定价,并实现价值转化?我认为在过去许多年中,尚未找到更为优化的定价与价值转化方法,但是在未来会越来越珍贵。因为所谓的基础落地成本相对变低,你的点子就变得比较重要,甚至可能你的点子你会创造一个比较大的公司,然后可能有成百上千个所谓的agent来帮你完成,所以这个点子和这样的创意会变得比较有价值。我觉得人不论是从自身还是我们培养下一代,我觉得你有独立思考能力,你要有不同的很好的创意形成这样的一个过程,未来我们需要找到自己的价值,需要有这些独特的点子和创意,然后去服务和匹配未来的需求,这也是我们可以努力的一个方向。
徐思彦:独立的思想还有丰富的情绪,大家都不约而同讲到可能人最本质的地方。
AI与数字资产、元宇宙
孔融:对,如果真的未来由于AI带来了经济规模跟经济总量的上升,那么中间也有很多数字资产的机会,那跟区块链结合在一起又会有什么样的一些机会?这里我觉得其实今天可能还没有深入探讨,但肯定是一个方向。
徐思彦:其实之前元宇宙时期也有这方面的畅想,只不过那个时候技术总是螺旋上升的,平台搭建的还不够完善,或者说本身数字资产在人群当中的渗透率还不够高。
孔融:这里面很有意思的是,我们原来讲的不论是元宇宙这个名词,还是所谓的数字大楼,它其实一个个技术都在不断的成熟,然后又由于AI让其他能构建这个数字大楼的技术又进一步的加速成熟,所以我觉得其实不论是元宇宙这个名词,还是数字时代这个名词等等,其实都在快速的往前推。
胡修涵:我有个关于这方面的想法和结构。咱们可以试着从数字资产变现,或者说折算成现金的效率这个角度来看待这个问题。资产其实就是未来收益的折现,基本上在AI技术还没那么成功之前,大部分数字资产的折现效率都很低。比如说做个虚拟人参加演出,做任何动作,完成一个表演,都特别难,需要大家付出好多额外的开发和实施努力。但AI一出现,每一类核心资产的折现效率,就像刚才老师们说的,可能通过形成一个基于点子的agent的公司,会大幅度提高这个数字资产本身的折现率。所以当这种情况发生的时候,我们之前讨论的很多基于资产上的非炒作型、金融型的行为就能更好地适应了。折现里面最关键的效率杠杆就是token的单位费用,所以我们说单位的token是数字资产折现最重要的动力。
徐思彦:对我们这个讨论很有意思,已经不是单纯在讨论AI公司。AI社会当中会涌现出来非常多新的商业机会,而且不光是在解决效率问题,还会在社会变迁当中去观察到新的一些问题、新的人和AI互动的方式,以及当中涌现出来好多商业机会,我们都非常期待这样子的未来。
今天我们聊了一个多小时,和各位嘉宾一起回顾了过去一年AI的发展,也分享了大家心中的关键词。我发现我们在刚才的聊天中提到了很多有趣的点子,比如AI的人生体验器、AI的单位成本,还有agent和人交互的新方式。这些都是大家灵感的火花,会给未来的AI发展带来更多启发。AI的发展可能不是线性的,有时候会有泡沫,有时候会沉寂,但突然间就会在某个地方给我们带来新的灵感。也许今天我们讨论的很多远大理想将来都会变成现实。以后我会经常邀请各位嘉宾和创业者一起来关注AI的前沿进展,看看有趣的公司和产品,一起顺利过渡到即将到来的AI社会。谢谢大家收看,今天的AGI路线图特别节目就到这里,大家再见。
(协助整理叶东婷)