DeepSeek带领着中国AI科技的浪潮席卷而来,吉利成为首个接入DeepSeek的车企。现在,吉利不仅成为拥有语言、音频、视频全维大模型的车企,也成为向外部开源大模型的主导者之一。
2月18日,阶跃星辰和吉利汽车集团联合宣布,将双方合作研发的目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio向全球开发者开源。人工智能的浪潮席卷全球,尤其是在消费电子和汽车行业。无论是智能语音助手,还是视频生成技术,AI似乎总是与娱乐、互动挂钩。然而,表面的娱乐化背后,隐藏着一个更深刻的问题,当AI真正进入关键领域时,它能带来什么样的革命。作为此次开源的主导者,阶跃星辰是谁?阶跃星辰和吉利为何要迈出这一步?这两款大模型的技术底蕴究竟能为汽车带来哪些颠覆性的变化?在全球AI行业逐步进入深水区的今天,为什么要选择开源?
01
与OpenAI同显身手的阶跃星辰
阶跃星辰,一个大家并不熟悉的名字。但实际上,它成立仅短短两年时间,就成为中国AI“四剑客”之一。作为吉利的科技生态合作伙伴,阶跃星辰在短短一年内取得了全球领先的成绩,特别是在多模态大模型领域, Step系列大模型Step-Video-T2V和Step-Audio分别在视频生成和语音交互领域树立了标杆,在全球AI技术领域展示出了比肩OpenAI的能力。
token:粘土动画,一只小猫在厨房里探索,小心翼翼地移动,各种厨房用具都放大了数倍,画面生动可爱,镜头移动展现空间
其中,阶跃Step-Video-T2V大模型以300亿参数量成为目前性能最强的开源视频生成大模型。它能够生成204帧、540P分辨率的高质量视频,这不是数字维度的概念,而是背后深度学习能力。复杂运动、视觉美感、语义理解、镜头语言等多个维度的优化,使其在生成内容时能够精准呈现创作者的创意,无论是商业广告、影视短片,还是教育、培训视频,Step-Video-T2V都具备了更深层次的商业化应用潜力。
token:人物模糊化失焦拍摄,一个女孩的侧脸,披肩黑色长卷发,戴着红色贝雷帽,穿着蓝色毛衣,正在笔记本电脑前打字。超高清_HDR 视频_环境光_杜比全景声_画面稳定_流畅动作_逼真的细节_专业级构图_超现实主义_自然_生动_超细节_清晰与之并行的阶跃Step-Audio则是全球首个产品级的开源语音交互模型。通过强大的情感识别、方言生成以及音色复刻能力,它不仅能够生成自然、高情商的语音,还能精准模拟特定个性化风格的语音对话。在多个主流评测中,Step-Audio的表现位居全球第一,尤其在中国语境下的表现尤为出色,超越了现有同类模型。这种技术的打破,不仅让语音交互更具亲和力,也为未来的语音助手、娱乐和教育领域提供了技术保障。这些成果并非偶然,而是阶跃星辰与吉利深度合作的成果。从2023年起,双方共同推动了预训练大模型、垂直领域大模型和应用场景设计等多个方面的技术攻关。吉利在场景设计、模型测评及工程开发上发挥了巨大的作用,而阶跃星辰则在大规模模型预训练中提供了强大的支持。这种紧密的协作使得双方的技术优势得以快速融合,并显著提升了Step系列大模型在实际应用中的表现力和可靠性。
但真正深刻的,不仅是这些技术突破本身,更在于阶跃星辰对于“开源”的深刻理解。在全球范围内,开源已成为推动技术创新和加速市场竞争的重要力量。而阶跃星辰通过开源的方式,将技术演化的边界进一步推向了极限。所谓开源,是将软件的源代码对公众开放,任何人都可以查看、使用、修改和分发该软件,可以让大家看到工作原理、进行修改等工作。开源不仅是技术的共享,更是一种智能化的进化策略——通过开放源代码,吸引全球开发者和研究者参与其中,收集数据、获取反馈,迅速找到技术的瓶颈和漏洞。正如混动与智能驾驶技术的开源与共享,开源本质上是以更激烈的市场竞争为推动力,激发出更强的技术创新力和快速迭代的能力。这也解释了为什么阶跃星辰选择将Step-Video-T2V和Step-Audio大模型开源。开源不仅是推动技术持续进步的有效途径,也意味着更多的开发者可以参与到这一进程中来,避免闭门造车,推动技术更快地成熟。
02
吉利成为首个融合多模态AI大模型的车企
在AI泛化赛道上,谁能率先整合语言、音频、视频三大模态,谁就能真正打破局限,开辟出全新的技术蓝海。2021年,吉利就已着手布局“智能汽车全域AI”技术体系的构建,规划并着手建设了吉利星睿智算中心。
吉利早早就意识到,只有通过语言、音频、视频的多模态大模型融合,才能真正破解智能驾驶和AI交互中的瓶颈。吉利2022年建成并投入使用行业首个云数智一体的超级智算中心、2023年初测试并使用国产GPU。如今,吉利已经构建起10T 的token数据、40B的汽车领域垂类数据,吉利星睿智算中心的云端总算力已迭代到102亿亿次/秒,已经接入240万+车辆,可支持500万在线车辆的智算需求。
得益于此,吉利对多模态数据的深刻理解与应用便是其能够在AI领域保持领先的关键。此次,通过阶跃星辰的Step-Audio和Step-Video-T2V等大模型,吉利在语言、音频、视频三个维度上达到了前所未有的融合水平。例如,Step-Audio模型通过分析语音中的情感波动,能够精准识别用户的情绪变化。这一能力的背后,是对中文语义的深刻理解和对人类情感的精准捕捉。正如DeepSeek在中文语义的原生优势一样,吉利的AI也为中国消费者量身定制,能够更好地满足他们对智能系统情感化与人性化的需求。
与此同时,吉利的Step-Video-T2V模型通过对视频的高效处理和多模态融合,提升了AI在复杂场景下的判断能力。想象一下,在大雾天气或者阴天,画面灰度几乎相同的情况下,传统系统往往无法精准判断,但吉利的系统通过多模态的融合,利用精准的关键词匹配和token生成,使得智驾系统在这些边缘情况下依然能够做出准确判断。比如,系统不仅能看见图像,还能理解图像背后的语义信息,进而做出更为精准的驾驶决策。这种能力,显著提升了端到端智能驾驶系统的反应速度和判断力。这一切的核心,正是吉利通过多模态大模型的融合,极大提升了AI系统对外部环境的感知与反应能力,创造了一种全新的智能驾驶交互体验。这种基于多维度数据的系统,不仅让车辆更聪明,也让用户的体验变得更加顺畅和自然。
03
吉利AI体系纠偏“AI娱乐化”
春节后,十余个汽车品牌以及互联网产品纷纷宣布完整融合介入DeepSeek,大多仍停留在娱乐化的层面,尤其是音频、视频等领域。尽管这些技术带来了前所未有的用户体验,但其更深层的商业应用和产业升级,却依然处于起步阶段。
同样,落地到汽车产业中,车载语音助手、视频生成等技术的娱乐性应用,虽然让消费者享受到了短期的便捷,却无法在真正意义上推动智能驾驶、智能交通等深层次的产业变革。除了本次开源两大模型之外,吉利打造了全球首个汽车行业全场景AI大模型——吉利星睿AI大模型,还获得了中国通信院“4+级”最高评级,是行业内最顶尖的技术之一。
吉利的AI体系,早已不仅是语音助手和视频生成那么简单,而是从泛娱乐化应用中抽离出来。例如,赋能新能源架构、赋能云动力、赋能高难度驾控、赋能高阶智驾、赋能安全守卫、赋能智能生态等一系列技术成果,这些成果已经陆续在银河E8、银河E5、银河星舰7等多款车型上应用。这一系列技术不仅提升了用户体验,更加深了智能驾驶系统对外部环境的认知,尤其是在情绪、语言和视觉多模态的深度融合中,极大地提升了系统的判断和处理能力。
通过AI语音的情绪识别,能够精准地捕捉到用户的愤怒、渴望、甚至“正话反说”的情绪,并根据这些情绪做出相应的系统反应。而在视频技术的支持下,吉利的智驾系统能够准确区分复杂的环境场景,例如在大雾天气和阴天时,通过关键字和视觉图像的精准匹配,提升了系统对复杂驾驶环境的判断力。相比于大多数依然停留在娱乐化应用阶段的竞争对手,吉利已经通过自研大模型和开源策略,将AI技术进行全场景的技术布局。但更重要的是,吉利的AI体系,正在纠偏汽车产业AI泛娱乐化应用的现象。相信随着大模型开源,技术不断精进,吉利在AI赛道上的优势会愈发显著。