视觉理解、3D生成，豆包这次又玩出了什么新花样？

时光飞逝啊，家人们，前几天才大雪，眼瞅着又快到冬至了。

搁往年的情况，到了年底，这才到各大厂商纷纷发力的时候，毕竟年关将近嘛，总得搞出点啥新东西，一方面是给上头来点交代，还指着年终奖回去过年呢，另一方面也能给大家长长眼界。

特别是这AI行业，就连OpenAI一改之前大半年不更的惰性，直接开启了十二场直播，带来了包括主打整合功能的Projects、做到“耳聪目明”的高级语音模式，简化开发体验兄弟强化微调技术等全新功能演示。

既然GPT做了，那么国内大模型又怎么能不做呢，月之暗面Kimi发布视觉思考模型k1；腾讯微信推出多模态大模型POINTS 1.5；巨人网络发布千影有声游戏生成大模型，还有不胜枚举的初创公司带着自家模型的新进展试图刷个脸熟。

所以呢，豆包又又又更新了。

（图源：雷科技）

而且啊，这次还不是之前那每半个月发条站内信息告诉你的「小功能」更新，12月18日，字节跳动在上海举行了「火山引擎FORCE原动力大会·冬」，大会正式带来了豆包大模型家族的全面升级，并打造2000平方米的AI展区，以及举办10+场的专题论坛。

为了仔细观察一下豆包这一年来的进步，顺便看看字节接下来要折腾些什么新东西，小雷也是顶着凛冬，不远万里来到上海参与了本次开发者节的开幕演讲，接下来跟着我走就对了。

豆包大模型全面升级

在国产大模型中，豆包的起步确实是相对慢一点的。

当字节在去年10月上架自家首款AI原生应用——豆包App时，百度这边已经宣布在搜索、文库、地图等各种应用中全部植入了AI能力；阿里的通义千问已经到了2.0版本；就连一批资源不多的AI初创团队也已经陆续登上台面。

但或许是因为技术积累、厚积薄发的缘故，豆包AI生态在2024年实现了高速发展，甚至做到了后来居上。

在模型上，字节补全了图像、语音、音乐、视频、3D等不同模态的生成式AI模型；在应用上，豆包App已成为国内用户最多的ToC AI产品，截至11月底，累计用户规模已超过1.6亿，单日活跃用户接近900万。

不知不觉间，字节已经成为目前拥有最全生成式AI模型、最多AI应用的技术公司，而此时距离今年5月，字节跳动宣布自家豆包大模型正式开启对外服务以来，也就过了半年时间而已。

那么这次豆包，又给我们带来了什么惊喜呢？

首先是视觉理解模型。

（图源：雷科技）

研究显示，人类接收的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

在加入视觉理解模型后，现在豆包也能够像GPT-4o一样，接受文本、音频和图像任意组合的输入与输出，并通过深度融合视觉和语言模态，无需任何提示，即可识别日常生活中的大部分物体乃至企业，完成分析图表、处理代码、解答学科问题等交互。

豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。

正因如此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，试图改变了人们对大模型交互体验的既定思路，让人机对话体验更接近人与人之间的实时对话。

目前，这些模型都已通过火山引擎开放给企业客户。

在视频创作领域，火山引擎及其背后的字节跳动，恐怕是最有发言权的。

抖音在全球掀起的全民视频创作热潮，造就了一个全新的互联网视频时代，所以，即梦AI的视频生成也更关注用户在实际使用时的创作流程和创作效果，而不仅仅是简单地生成画面和动作。

（图源：雷科技）

在大会上，即梦Dreamina张楠展示了两个令人惊艳的AI视频片段，从多人互动到运动长镜头，两个视频都可以在保证视频流畅度的同时确保视频元素的一致和主体风格不变化，在我看来已经足够惊艳出彩。

张楠认为，生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化，“像做梦一样”。即梦希望成为“想象力世界”的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

不仅如此，在大会上张楠正式宣告，具备更长视频生成能力的豆包视频生成模型1.5版将于2025年春季正式推出，端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力，为更多更精细的AI视频创造实现赋能。

大家熟悉的豆包大模型多款产品，在本次大会上也迎来重要更新。

（图源：雷科技）

豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型目前已接入即梦AI和豆包App中。

最最最特别的，还是本次大会上首次亮相的豆包3D生成模型，该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

AI赋能游戏创作，或许并不是一场梦。

大模型应用加速落地

比起空口说白话的「能力」，对于用户来说，落到实处的「应用」显然是更值得关注的。

普通用户使用体验很好解决，豆包战略研究负责人周昊表示，做产品要把关键用户需求解决好，只要豆包App能做到输入方便、离用户近、模型能力更强，就能继续维持高速发展。

而在企业这边，面向诸多企业用户，火山引擎这次特地升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。

（图源：雷科技）

其中，火山方舟发布了大模型记忆方案，并带来了全域AI搜索能力，前者在更低延迟和成本的基础上，为大模型赋予了「更加懂你」的能力，后者则能在记忆能力的基础上，做到一体化、场景化和个性化的搜索推荐，并对企业私域信息进行有机整合。

作为目前业内最便捷的AI Bot定制平台，现在扣子也获得了今天大模型升级的一系列能力，你依然可以通过按部就班地给出自己的需求来制作属于自己的AI Bot。

总感觉雷科技上线的小雷Bot也是时间该更新了，只要小雷努力一下，或许之后根据用户上传的照片、视频里的手机，给出购买建议这些功能也能实现？

最后，小雷还去逛了一下展区。

这次字节也在现场设置了五个不同的展示区，分别是：豆包大模型、构建AI创意中枢、AI驱动应用创新、持续创新的AI云与基础设施和AI加速行业跃迁。

（图源：雷科技）

要说里面比较有趣的，一个是网易伏羲和火山引擎合作的AI NPC，在数个不同故事主题的开放世界庞大背景下，火山大模型化身千行百业的NPC，融入进游戏的游历玩法中，为玩家带来与AI人物角色实时互动的全新体验。

（图源：雷科技）

还有前面提到的AI音乐，实测只需要几个关键词，在极短的时间里就能生成一首朗朗上口的音乐，根据要求切换不同的曲风并生成歌词，这次豆包还特地让一个小姐姐在现场演唱大模型生成的曲目，这种人机协同的新体验也是头一遭。

（图源：雷科技）

AI更实用，更好用

整个发布会看下来，字节跳动/火山大模型正在做的事情还挺好理解的：

“满足具体且真实的需求，关心用户具体且真实的生活。”

（图源：雷科技）

自ChatGPT发布，如今也差不多过去两年时间了，自全球掀起的这场大模型竞赛也已经有一年半时间了，但是如今怎么将大模型落地，依然是萦绕在每一家AI公司的最大命题。

有媒体统计，自从GPT-3.5上线以来，在各家大厂继续大规模投入的同时，中国新成立的AI公司已经有近8万家陷入注销、吊销或停业异常的状态，甚至出现部分厂商决定用已有的服务器转行游戏业的情况，百模大战的热闹和惨烈都出乎很多人的意料。

而火山引擎这边，则是在FORCE原动力大会·冬上，交出了一份大模型与行业结合的高分答卷。

作为世界排名第二、中国排名第一名的AI APP，数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

（图源：雷科技）

不仅如此，豆包大模型还获得众多行业客户青睐，不仅与八成主流汽车品牌合作，更是接入到包括vivo、荣耀在内的多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

在我看来，豆包获得青睐背后的原因其实很简单——就是价格更低、效果更好。

在今天的大会上，豆包让视觉理解模型进入“厘时代”，价格来到了0.003/千tokens，一块钱能够处理284张图片，比行业价格便宜85％，诸如记忆能力、大模型推理成本也有肉眼可见的降低。

目前大模型的格局尚不清晰，我们很难预测一个超级应用何时出现，但以能力更强、价格更低和更易落地的大模型与行业融合，或许真的能加速大模型商业化的探索，也能从中找到更多AIGC应用与市场契合度的可能性。

火山引擎希望能助力更多企业实现智能化转型和业务增长，成为推动各行各业向前发展的强劲动力，迎接更加丰富的硬件品类、更快落地的技术应用、更加蓬勃的产业生态。这样一个目标，说着倒是容易，但想要实现的话，需要企业背后的决心、技术力和市场能力，缺一不可。

或许可以这么认为，在这场AI竞争淘汰赛中，字节跳动正在火力全开，而国产AI大模型的格局，很可能要有新变化了。

25年1月7日，CES（国际消费电子展） 2025 即将盛大开幕，雷科技报道团蓄势待发，即将飞赴美国·拉斯维加斯现场全程报道，敬请关注。

世良情感网

视觉理解、3D生成，豆包这次又玩出了什么新花样？

雷科技