携手开源音视频大模型吉利AI体系纠偏“汽车产业AI娱乐化”现象

DeepSeek带领着中国AI科技的浪潮席卷而来，吉利成为首个接入DeepSeek的车企。现在，吉利不仅成为拥有语言、音频、视频全维大模型的车企，也成为向外部开源大模型的主导者之一。

2月18日，阶跃星辰和吉利汽车集团联合宣布，将双方合作研发的目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃Step-Audio向全球开发者开源。人工智能的浪潮席卷全球，尤其是在消费电子和汽车行业。无论是智能语音助手，还是视频生成技术，AI似乎总是与娱乐、互动挂钩。然而，表面的娱乐化背后，隐藏着一个更深刻的问题，当AI真正进入关键领域时，它能带来什么样的革命。作为此次开源的主导者，阶跃星辰是谁？阶跃星辰和吉利为何要迈出这一步？这两款大模型的技术底蕴究竟能为汽车带来哪些颠覆性的变化？在全球AI行业逐步进入深水区的今天，为什么要选择开源？

与OpenAI同显身手的阶跃星辰

阶跃星辰，一个大家并不熟悉的名字。但实际上，它成立仅短短两年时间，就成为中国AI“四剑客”之一。作为吉利的科技生态合作伙伴，阶跃星辰在短短一年内取得了全球领先的成绩，特别是在多模态大模型领域， Step系列大模型Step-Video-T2V和Step-Audio分别在视频生成和语音交互领域树立了标杆，在全球AI技术领域展示出了比肩OpenAI的能力。

token：粘土动画，一只小猫在厨房里探索，小心翼翼地移动，各种厨房用具都放大了数倍，画面生动可爱，镜头移动展现空间

其中，阶跃Step-Video-T2V大模型以300亿参数量成为目前性能最强的开源视频生成大模型。它能够生成204帧、540P分辨率的高质量视频，这不是数字维度的概念，而是背后深度学习能力。复杂运动、视觉美感、语义理解、镜头语言等多个维度的优化，使其在生成内容时能够精准呈现创作者的创意，无论是商业广告、影视短片，还是教育、培训视频，Step-Video-T2V都具备了更深层次的商业化应用潜力。

token：人物模糊化失焦拍摄，一个女孩的侧脸，披肩黑色长卷发，戴着红色贝雷帽，穿着蓝色毛衣，正在笔记本电脑前打字。超高清_HDR 视频_环境光_杜比全景声_画面稳定_流畅动作_逼真的细节_专业级构图_超现实主义_自然_生动_超细节_清晰与之并行的阶跃Step-Audio则是全球首个产品级的开源语音交互模型。通过强大的情感识别、方言生成以及音色复刻能力，它不仅能够生成自然、高情商的语音，还能精准模拟特定个性化风格的语音对话。在多个主流评测中，Step-Audio的表现位居全球第一，尤其在中国语境下的表现尤为出色，超越了现有同类模型。这种技术的打破，不仅让语音交互更具亲和力，也为未来的语音助手、娱乐和教育领域提供了技术保障。这些成果并非偶然，而是阶跃星辰与吉利深度合作的成果。从2023年起，双方共同推动了预训练大模型、垂直领域大模型和应用场景设计等多个方面的技术攻关。吉利在场景设计、模型测评及工程开发上发挥了巨大的作用，而阶跃星辰则在大规模模型预训练中提供了强大的支持。这种紧密的协作使得双方的技术优势得以快速融合，并显著提升了Step系列大模型在实际应用中的表现力和可靠性。

但真正深刻的，不仅是这些技术突破本身，更在于阶跃星辰对于“开源”的深刻理解。在全球范围内，开源已成为推动技术创新和加速市场竞争的重要力量。而阶跃星辰通过开源的方式，将技术演化的边界进一步推向了极限。所谓开源，是将软件的源代码对公众开放，任何人都可以查看、使用、修改和分发该软件，可以让大家看到工作原理、进行修改等工作。开源不仅是技术的共享，更是一种智能化的进化策略——通过开放源代码，吸引全球开发者和研究者参与其中，收集数据、获取反馈，迅速找到技术的瓶颈和漏洞。正如混动与智能驾驶技术的开源与共享，开源本质上是以更激烈的市场竞争为推动力，激发出更强的技术创新力和快速迭代的能力。这也解释了为什么阶跃星辰选择将Step-Video-T2V和Step-Audio大模型开源。开源不仅是推动技术持续进步的有效途径，也意味着更多的开发者可以参与到这一进程中来，避免闭门造车，推动技术更快地成熟。

吉利成为首个融合多模态AI大模型的车企

在AI泛化赛道上，谁能率先整合语言、音频、视频三大模态，谁就能真正打破局限，开辟出全新的技术蓝海。2021年，吉利就已着手布局“智能汽车全域AI”技术体系的构建，规划并着手建设了吉利星睿智算中心。

吉利早早就意识到，只有通过语言、音频、视频的多模态大模型融合，才能真正破解智能驾驶和AI交互中的瓶颈。吉利2022年建成并投入使用行业首个云数智一体的超级智算中心、2023年初测试并使用国产GPU。如今，吉利已经构建起10T 的token数据、40B的汽车领域垂类数据，吉利星睿智算中心的云端总算力已迭代到102亿亿次/秒，已经接入240万+车辆，可支持500万在线车辆的智算需求。

得益于此，吉利对多模态数据的深刻理解与应用便是其能够在AI领域保持领先的关键。此次，通过阶跃星辰的Step-Audio和Step-Video-T2V等大模型，吉利在语言、音频、视频三个维度上达到了前所未有的融合水平。例如，Step-Audio模型通过分析语音中的情感波动，能够精准识别用户的情绪变化。这一能力的背后，是对中文语义的深刻理解和对人类情感的精准捕捉。正如DeepSeek在中文语义的原生优势一样，吉利的AI也为中国消费者量身定制，能够更好地满足他们对智能系统情感化与人性化的需求。

与此同时，吉利的Step-Video-T2V模型通过对视频的高效处理和多模态融合，提升了AI在复杂场景下的判断能力。想象一下，在大雾天气或者阴天，画面灰度几乎相同的情况下，传统系统往往无法精准判断，但吉利的系统通过多模态的融合，利用精准的关键词匹配和token生成，使得智驾系统在这些边缘情况下依然能够做出准确判断。比如，系统不仅能看见图像，还能理解图像背后的语义信息，进而做出更为精准的驾驶决策。这种能力，显著提升了端到端智能驾驶系统的反应速度和判断力。这一切的核心，正是吉利通过多模态大模型的融合，极大提升了AI系统对外部环境的感知与反应能力，创造了一种全新的智能驾驶交互体验。这种基于多维度数据的系统，不仅让车辆更聪明，也让用户的体验变得更加顺畅和自然。

吉利AI体系纠偏“AI娱乐化”

春节后，十余个汽车品牌以及互联网产品纷纷宣布完整融合介入DeepSeek，大多仍停留在娱乐化的层面，尤其是音频、视频等领域。尽管这些技术带来了前所未有的用户体验，但其更深层的商业应用和产业升级，却依然处于起步阶段。

同样，落地到汽车产业中，车载语音助手、视频生成等技术的娱乐性应用，虽然让消费者享受到了短期的便捷，却无法在真正意义上推动智能驾驶、智能交通等深层次的产业变革。除了本次开源两大模型之外，吉利打造了全球首个汽车行业全场景AI大模型——吉利星睿AI大模型，还获得了中国通信院“4+级”最高评级，是行业内最顶尖的技术之一。

吉利的AI体系，早已不仅是语音助手和视频生成那么简单，而是从泛娱乐化应用中抽离出来。例如，赋能新能源架构、赋能云动力、赋能高难度驾控、赋能高阶智驾、赋能安全守卫、赋能智能生态等一系列技术成果，这些成果已经陆续在银河E8、银河E5、银河星舰7等多款车型上应用。这一系列技术不仅提升了用户体验，更加深了智能驾驶系统对外部环境的认知，尤其是在情绪、语言和视觉多模态的深度融合中，极大地提升了系统的判断和处理能力。

通过AI语音的情绪识别，能够精准地捕捉到用户的愤怒、渴望、甚至“正话反说”的情绪，并根据这些情绪做出相应的系统反应。而在视频技术的支持下，吉利的智驾系统能够准确区分复杂的环境场景，例如在大雾天气和阴天时，通过关键字和视觉图像的精准匹配，提升了系统对复杂驾驶环境的判断力。相比于大多数依然停留在娱乐化应用阶段的竞争对手，吉利已经通过自研大模型和开源策略，将AI技术进行全场景的技术布局。但更重要的是，吉利的AI体系，正在纠偏汽车产业AI泛娱乐化应用的现象。相信随着大模型开源，技术不断精进，吉利在AI赛道上的优势会愈发显著。