作为纯视觉高阶智驾方案的头部玩家,百度智能驾驶始终坚持算法、算力的深耕和投入。从语音大模型到智驾大模型,2024年,百度智驾能力又迈上新的台阶。
3月25日,在极越AI DAY 2024上,百度Apollo自动驾驶视觉大模型VTA(Vision Takes All)正式发布,大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力,再度提升极越纯视觉高阶智驾能力上限。
在大模型的基础之上,百度还能提供2.2EFLOPS 的GPU智驾云端算力,让大模型能在海量的数据中,实现快速迭代。在过去几个月里,百度和极越就迭代了90多个智驾功能。
“今年上半年我们会做轻图开城,从4月到6月底,上半年我们会开300个城市,百度地图导航能到的地方,我们的城市智驾基本都可以覆盖。”3月17日,在中国电动汽车百人会论坛(2024)上,百度智能驾驶事业群组(IDG)首席研发架构师 IDG技术委员会主席王亮在接受帮宁工作室在内的媒体采访时,还公布了百度在领航辅助驾驶上的最新规划。
在领航辅助驾驶开城方面,百度相对而言入局较晚,搭载相关功能的车型比小鹏等第一梯队晚了13个月左右,但其铺设和追赶速度较快,按照当前规划和布局,百度即将迈入第一阵营。
“之所以我们追赶得比较快,这也得益于我们前5年在L4业务上积累的基础设施、人才、经过验证的算法,以及大量宝贵智驾数据,这两者之间是有机的协同和结合,包括数据层面、算法层面、地图验证、地图规格变化等,两边一直在协同往前跑。”王亮解释道。
在技术创新方面,作为一个纯视觉派,王亮认为,视觉能力最好的迭代方式是去掉激光雷达,使之在真实场景里面完成迭代。
“为什么我说激光雷达是一个拐杖?因为依靠激光雷达肯定是走不到终局。”王亮说,一直以来,他有一个观点不会变——所有智能驾驶要走到终局,终局若以用户是否能形成依赖、是不是能长期使用为标准,那么很强大的视觉感知能力应该是充分必要条件。
具体来看,从现实角度出发,激光雷达蕴含的信息量,对比图像(视觉)而言少好几个量级,但因为其具有初速度比较快的优势,所以比纯视觉更快上车。
从研发进度来看,激光雷达能让工程师产生惰性,从而不能真正迭代视觉能力。他举例说道:“如果同时有激光雷达和视觉,遇到困难、又在时间很紧迫、老板要求你解决问题的情况下,大部分人还是会从激光雷达上想办法。”
去掉激光雷达的百度智能驾驶,发展速度只会越来越快。
“我们已经进入了一个良性的轨道,后续的迭代像大模型时代我们的模型算力、我们的数据,加上我们整个模型的参数规模在不断地增强,我觉得视觉会越跑越快,还是一个非常正确的选择。”王亮说。