4月25日,商汤绝影面向量产的真·端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)在2024北京国际车展上完成上车演示首秀。
在2022年底提出行业首个感知决策一体化自动驾驶通用模型UniAD并荣获2023年国际计算机视觉与模式识别会议(CVPR) 最佳论文后,商汤绝影率先实现中国端到端自动驾驶方案从技术创新到车端部署的关键突破。
真·端到端方案上车演示首秀,UniAD起步即城区,畅行乡村路
随着智驾的落地场景从高速进入城区,道路环境的复杂度急剧提高,对于传统智驾方案来说,无保护左转的城区复杂场景是不小的挑战,需要多传感器融合感知且大量投入资源来解决各种长尾问题。
而UniAD实车部署后就开始学习如何在城区道路上行驶,如今,搭载UniAD端到端自动驾驶解决方案的车辆仅凭摄像头的视觉感知,无需高精地图,通过数据学习和驱动就可以像人一样观察并理解外部环境,然后基于足够丰富的感知信息,UniAD能够自己思考并作出决策,像人一样开车,流畅进行无保护左转、快速通行人车混行的红绿灯路口,自主解决各种高难度的城市复杂驾驶场景。
搭载UniAD方案的车辆快速通行人车混行的红绿灯路口
不仅如此,在传统方案较难突破的无中线的乡村道路上,UniAD同样可以自如行驶,完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,真正做到“像人一样开车”。
搭载UniAD方案的车辆,可自主避让施工区域
在北京车展的上车演示中就有一个相当复杂的场景:在临港无标线乡村窄路上,对向有车驶来,前方有行人在跑步,UniAD判断出前方有足够的空间进行操作,所以在确保安全的情况下,选择快速向左绕过行人然后回到正常行驶路线完成会车,顺利解决这一复杂场景,就像老司机一样在开车。
UniAD灵活绕过行人并完成会车,真正做到像人一样开车
商汤绝影用令人惊艳的UniAD实车测试成果展现了中国面向量产的端到端智驾方案的实力。
UniAD真·端到端:感知决策一体大模型是最优解
目前,自动驾驶算法的主流架构方案是以工程师人为定义的手写规则为基础,依靠感知、决策、规划等不同模块的相互配合来实现自动驾驶。但由于每个独立模块之间的数据是逐级传递的,必然会存在信息的丢失和误差,而且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。
而且有限的规则终究无法完全覆盖无限的复杂场景和长尾问题,传统智驾的天花板已经开始显现。
想要从感知开始就实现信息的无损传递并打破传统智驾的天花板,必须要有一个全新的算法范式,而端到端模型正在为自动驾驶开辟出了一条全新的技术路线。
有别于传统的智驾算法,端到端自动驾驶方案是指以最终的驾驶性能为目标,通过一种集成化的方式处理自动驾驶任务,从感知到决策再到控制的整个流程都依靠Transformer神经网络模型完成。
随着UniAD的提出和特斯拉搭载FSD V12版本的实车上路,越来越多的公司也开始推出自己的“端到端”方案。
目前,市面上不少端到端方案是在感知和决策两个模块分别搭建一个大模型框架,更容易实现落地,但“两段式”端到端方案的感知和决策两个模型之间传输的信息是人为定义的显性信息,数据传递仍然会有过滤和丢失。
商汤绝影UniAD方案则是业界首个将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,“所见即所得”,将原始信息直接输入到端到端模型中,然后以自车轨迹规划为准进行指令输出,实现真·端到端自动驾驶。
真·端到端是感知决策一体化
未来,端到端方案依靠持续算力投入和高质量数据学习的高效范式将取代单纯依靠人力堆砌、耗费时间的低效模式,成为自动驾驶在AGI时代的关键能力。
首先,传统智驾方案和“两段式”端到端方案都是依靠人为定义的规则在传递显性信息,存在信息误差和丢失,难以完整准确还原外部场景,而端到端自动驾驶大模型最明显的优势就在于信息的无损传递,端到端模型基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂的交通环境,并且能够不断成长,有着更高的能力上限。
其次,依赖数据驱动的端到端方案能够将其学到的驾驶能力和技巧迁移泛化到其他场景当中,具备更快的迭代效率,帮助车企更快速实现全国都能开的目标,无论是城区还是乡村道路,现在的UniAD都行驶得游刃有余。
最后,端到端自动驾驶大模型是像人一样感知和理解外部环境,纯视觉和无高精地图就是UniAD与生俱来的天赋,它只需要导航信息就可以把车驾驶到目的地,天然就能帮助车企降低软硬件成本。
拥有更高能力上限、更快迭代效率、更低系统成本的感知决策一体大模型是真·端到端智驾的最优解。
商汤绝影的真·硬核实力:强大模型性能、高质量数据与丰沛算力
和基于规则的传统智驾方案相比,端到端自动驾驶方案的核心优势是大模型强大的学习、思考和推理能力,特别是“涌现”能力,而UniAD端到端方案的能力展现需要强大的模型性能、高质量数据和丰富的算力资源支撑。
在模型性能层面,商汤绝影在2022年底就提出了行业首个感知决策一体化自动驾驶通用模型,UniAD方案在高质量数据的驱动下已经历多轮迭代,性能不断优化,处于行业领先地位。
特斯拉FSD V12版本删除了30多万行,最终缩减成几千行,但这个端到端智驾方案的能力依然强大,并且在不断成长。UniAD同样如此,依靠商汤丰富的模型轻量化部署经验,2023年下半年开始商汤绝影UniAD方案就启动部署上车,并且在丰沛算力和高质量数据的支持下持续快速迭代和成长。
不止如此,特斯拉FSD V12等一体化端到端方案是基于一个不可解耦的模型打造,UniAD是将多个模块整合到一个端到端模型架构之下,仍可以对各个模块进行分别的监测和优化,相较于纯黑盒的端到端技术,UniAD方案具有更强的可解释性、安全性与持续迭代性。
在数据层面,端到端自动驾驶的训练需要高质量视频数据,主要是各种长尾场景,如逆行车辆、横穿的非机动车、“鬼探头”的行人等,现实世界中的采集难度很大,现在很多企业虽然有很多数据,但是大多是正常行车的低质量数据。
商汤绝影通过实车采集、数据管线的清洗筛选能力以及强大的仿真技术,可以通过添加障碍物等人为创造复杂场景,为UniAD提供持续进化和商业化落地的养分。
依靠世界模型,商汤绝影能够源源不断地生成自动驾驶环境下更为精细和复杂场景视频数据,然后用这些数据给UniAD进行有针对性的模型训练。比如,世界模型能够生成人车混行、环岛路口等复杂城市场景,甚至可以复刻“8D”城市构造。
商汤大装置为UniAD的高效训练学习和实车部署提供坚实基础
在算力层面,商汤从2018年开始布局建设AI基础设施,如今,商汤大装置已经布局全国一体化的智算网络,总体算力规模达12,000 petaFLOPS(每秒千万亿次浮点运算次数,下称“P”)。凭商汤大装置国内领先的算力资源,UniAD自动驾驶方案的高效训练学习和实车部署具备坚实的基础。
DriveAGI:更聪明更强大的端到端已在路上
商汤绝影在北京车展发布了更聪明更强大的下一代自动驾驶技术——DriveAGI的前瞻预览,它是基于多模态大模型对端到端智驾方案进行改进和升级。
DriveAGI是自动驾驶大模型从数据驱动向认知驱动进化,超越司机的概念,加深其对于世界的理解能力,具备更强的推理能力、决策能力以及交互能力,是目前自动驾驶中最贴近人类思维模式、最能理解人类意图并有最强解决驾驶困难场景能力的技术方案,向着完全无人驾驶迈出重要一步。
新一代自动驾驶大模型DriveAGI:可感知、可交互、可信赖
不仅如此,DriveAGI是基于多模态大模型打造,具有强大的交互能力,让用户能用在座舱内进行自然语言指令的交互和驾驶控制,在体验上进一步做到可感知、可交互、可信赖。
从UniAD跨越到DriveAGI,商汤绝影一直在引领端到端自动驾驶的潮流,但我们不会止步于此。商汤绝影正在打破智能座舱和智能驾驶两者的界限,推动舱驾一体的架构变革,加速智能汽车驶入AGI全新未来。