在AGI时代,智能座舱将实现自我叛逆的进化,可以提供主动关怀,甚至成为“AnewmemberforU”:察言观色、无时不在、心有灵犀。
文|钱丽娜
ID|BMR2004
商汤科技创始人汤晓鸥曾说,AI和传统产业之间是没有边界的。
过去十年,人工智能的发展经历了不同的阶段,从金融、娱乐、互联网、手机再到智慧城市,今天,AI2.0迎来了通用人工智能时代。汽车行业正处于电动化迈向智能化的重要产业升级阶段。汽车具备人工智能需要的更广阔空间和更加丰富的硬件配置,是通用人工智能理想的载体。智能汽车孕育的一系列关键技术与具身智能、人形机器人高度重合,为未来的商业拓展提供了巨大的想象空间。
01
端到端自动驾驶,偶然中的必然
商汤绝影(以下简称“绝影”)成为专注于智能汽车的AI公司始于2016年本田汽车的商业需求。本田汽车在中国寻找智能驾驶合作伙伴时,提出抛弃激光雷达和高精度地图,在没有车道线的路口,根据图像的输入直接输出车辆行驶的轨迹,完成自动驾驶。这个目标与今天纯视觉端到端自动驾驶的技术路线高度一致,这也是绝影探索端到端自动驾驶的起点。
2017年3月,绝影在日本自动驾驶测试场参加测试。当时下起了瓢泼大雨,激光雷达、惯导等昂贵又复杂的自动驾驶硬件系统完全无法正常启动。而绝影的纯视觉方案只靠两个摄像头,就顺利完成了整个自动驾驶的测试,与上述硬件设备形成了鲜明的对比,也给在场所有人带来了巨大的惊喜和信心。一场暴雨成就了纯视觉的智驾方案,也成为绝影端到端研究的起点。
2022年,绝影提出了行业首个端到端自动驾驶解决方案。但绝影的汽车智能化创新不止如此,从刷脸开车门技术的全球量产首发开始,儿童检测功能、座舱乘员健康检测功能、智能B柱交互系统陆续量产首发。2024年,蔚来、乐道都基于绝影的能力量产了全座舱记忆功能。小米SU7发布时,绝影大模型全面助力“小爱同学”在车载语音场景的应用,“小爱同学”成为小米SU7最受欢迎的座舱功能。
2022年ChatGPT时刻到来,大模型开启了通用人工智能新的征程。绝影推动智能汽车向超级智能体进化,目标是要成为主机厂加速驶入AGI时代的战略合作伙伴。
基于强大的算力基础设施和前沿技术,绝影构建了“驾舱云”三位一体的产品体系。在智能驾驶、智能座舱和AI云三个领域,绝影各自打造了具有竞争力的创新产品,并且实现了驾舱一体、端云协同,为用户带来全新AI出行的体验。
02
AGI时代,智能座舱从工具到家庭伙伴
在AGI时代,智能座舱将实现自我叛逆的进化,可以提供主动关怀。比如提醒小朋友少吃糖,给足情绪价值,记得用户的习惯、偏好,伴随成长,成为家庭新成员,这就是绝影为智能座舱创造的“AnewmemberforU”。
作为家庭成员,“AnewmemberforU”有三大特点:察言观色、无时不在、心有灵犀,这背后依靠的是三大技术的支撑,分别对应的是原生流式多模态大模型、车载类人记忆框架和持续运行框架。
原生流式多模态大模型。察言观色最重要的是察和观,不仅要看到、听到、感受到,还要能够理解所感知到的信息并做出回应。该大模型让智能汽车有了类似人类的视觉、听觉和触觉能力,让它能够看懂世界,也更加懂人类。比如能够看懂人的穿搭风格,根据表情判断人的情绪,通过奖牌上的文字就知道小朋友参加了什么比赛,这些都是原生流式多模态感知与理解能力的体现。
在智能汽车空间,人和环境传递信息的模态非常丰富,包括了语言、语音、语调、表情和各种车载信号。这些真实世界中的元素,原生流式多模态大模型都能以端到端的优化方式,准确地感知和理解。它是“AnewmemberforU”能够察言观色的基础。
车载类人记忆框架。当汽车成为智能体时,记忆就成为是工具还是助手的分水岭,否则难以与用户产生真正的链接。真正的智能汽车必须要有记忆,才能与人心有灵犀。
“AnewmemberforU”被绝影定义为一个能够感知和理解用户需求,提供有温度、有情感的主动关怀式AI智能座舱。比如,在驾驶旅途中,若系统注意到坐在后排的孩子睡着了,就会主动把空调调至适宜温度、调低音乐声量,并将车辆底盘和驾驶模式调整为舒适模式,营造一个舒适安心的睡眠环境。
车载类人记忆框架与人类的记忆机制类似。人的记忆分成临时记忆、长期记忆和场景记忆。临时记忆是一瞥而过的瞬间,长期记忆就像一个档案库,能够基于人的行为模式和偏好总结规律,自我迭代。场景记忆是通过融合临时记忆和长期记忆去提取最重要的信息,为特定场景的决策和行动提供依据。
绝影的车载类人记忆框架覆盖了人、车、物、环境四大类别,100多个记忆维度。动态记忆的检索可以做到毫秒级并且具有自成长的记忆迭代能力。但智能体仅仅会察言观色、有记忆还不够,只有陪伴左右,才是一个合格的新成员。
持续运行框架。无时不在的陪伴是怎么做到的呢?绝影在业内首创Always-on持续运行框架,采用端云协同的模式,场景任务有80%在端侧完成。持续运行框架有多项核心技术,可以持续推理,有基于记忆反馈的闭环,零拷贝传输,数据延时控制在1毫秒以下,确保所有感知模块能够协同工作,实现真正的实时性和快速响应复杂场景,推理速度可以达到40Token/秒,首包延时60毫秒,还覆盖了英伟达、高通、联发科等平台,绝大部分的车型都可以快速落地应用。
03
数据基础设施是产业发展的基石
难例数据(corner-case通常指的是在多个变量或条件的极端组合下出现的情况)一般具有危险性和新奇性。当难例数据挡住或即将挡住车辆的行驶路径,这些目标将对行车安全构成威胁。
传统的智驾靠堆砌人力,手写规则来解决,但难以解决海量的场景,而端到端的智驾由大量实车采集的数据来推动模型的能力升级。
行业研发范式正在从规则驱动转为数据驱动,庞大的数据需求取代了大量的工程人力投入。数据驱动的模式需要有完善的数据闭环体系支撑,数据基础设施便成为竞争的核心。如何打造强大的数据基础设施?更低成本、更高效的生产数据就成为赢得竞争的关键。
特斯拉有700万辆高阶智驾量产车收集数据,有成熟的数据基础设施和10万P(petaflops,即千万亿次浮点运算每秒)的超大算力。据第三方统计数据,中国国内车企支持城区辅助驾驶高阶智驾车的数量约为数十万辆,并且不同的车型,数据的基础设施也不统一。再加上云端算力与特斯拉有两个数量级的差距,国内车厂要想追赶上,必须要通过新模式来革新数据基础设施。
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚说:“如果把端到端的智驾体系比喻成一座冰山,端到端模型在车端的部署只是冰山上的一小部分,冰山之下的数据基础设施是不容易被发现和重视的,却是更加庞大和关键的基石。需要用量产实车采集真实的数据,用世界模型生成仿真数据,从而形成双轮驱动、车云一体的数据闭环新范式。”
绝影多年来在车云两端持续的投入和积累,形成了车云一体的产品体系及能力。在车端,绝影打造了覆盖基础和高阶智驾的方案,以及基于UniAD打造了端到端量产的智驾方案。在云端拥有世界模型和与车企共建的量产数据闭环平台,基于J6E和J6M两个平台,绝影打造了全场景高阶智驾的量产方案——ADpro和ADmax。其中ADmax能够实现城区无图的NOP(NavigateonPilot,领航辅助)。此外,基于UniAD打造的绝影量产端到端智驾方案——ADUltra,不需要高精度地图,也不需要激光雷达,只需要1个毫米波雷达和11个摄像头,依靠200Tops的车载算力平台,就可以上车一段式端到端的智驾方案,打造类人的驾驶体验。
端到端是指一种研发的范式,从最开始的输入端到最后的输出端,中间没有其他的过程。一段式端到端大模型取消了“感知+规划”分模块的智驾结构,以大量“人类驾驶数据+深度神经网络”为基础,直接生成车辆的路径规划信息。例如,相比于传统方法需要人为定义“水坑”类型,并使用大量数据训练感知模型来识别水坑,再训练规模模型绕开水坑,一段式端到端无需预先定义“水坑”类型,它通过直接学习来规避水坑。
真实世界的场景是千变万化的,难例数据层出不穷,同时,智能驾驶技术对于安全性的要求非常高,百万分之一的精度差异都可能影响数据可靠性。所以,真正强大的世界模型,不仅可以预测未来的万千可能,还能够把握细微的变化,为整个端到端智驾体系打下最坚实的基础。但想要实现更好的端到端的驾驶体验,就离不开仿真数据的支持,还必须是真实度高、准确性好、可控性强、泛化性广的仿真数据。
04
端到端将改变产业链协作模式
在传统的模块化分工时代,车厂一级供应商负责集成,但是未来在端到端自动驾驶到来时,更多是要依赖数据驱动,数据资源掌握在主机厂手里,所以谁能够更接近数据,谁就能够在未来发展的过程中占据主动。
因此,王晓刚认为,以前模块化的分工,未来就不再适用,因为端到端把原来的模块统一在一起,协作和分工模式就会发生重要变化。比如绝影跟主机厂和自研团队的协同,重要的是绝影能够提供基础算力和数据平台化能力,包括工具链。绝影要能够对齐数据生产的标准和算法架构,如果这些对不齐,不同车型上采集的数据是没有办法兼容的。
一旦这些基础夯实之后,就相当于给“数据石油”搭建了一个坚实、高质量的数据生产管线。高质量的数据会从这个“油田”源源不断地输出。
“智能驾驶整体上离盈利还有一定的距离。在交付过程中,如果各方面资源和数据工具链没有对齐,往往会造成重复投入,因而谁能够提升效率,有高性价比的交付,谁就能够走得更远。”王晓刚说。
在训练智驾模型时会使用到仿真生成的数据。模型的幻觉问题与模型训练的方式密切相关。语言模型、多模态模型,实际上也都存在幻觉,但是绝影在做数据准备时,会把比较精细化的监督信号作为模型输入,在模型架构里面做精细化的调整。
此外,模型要一直在芯片上运行,只有这样,它才能够了解并提取车辆过去时间里发生的细微事件,这与在云端处理不一样。云端只在发出请求时才会进行响应,所以,支持大模型终端芯片的出现,将会给行业带来较大的转机。
王晓刚认为,今天当端到端到来的时候,最大的价值就在于数据。以前比的是先进的算法或者有没有芯片,能否进行垂直整合,但是接下来端到端最核心的点,不一定是软硬一体或者垂直整合,而是谁离数据越近,谁的数据基础设施越强,谁能把数据基础设施铺到主机厂,谁就在未来发展和竞争中占有主动权。“在技术驱动的行业,当技术发生变革时,生产力核心要素就会发生变化,这也意味着给市场上竞争的态势带来新的变化。”(本文图片由受访者提供)
来源|《商学院》杂志2025年1月刊