2023年10月17日,百度世界大会2023在北京首钢园举行。创始人李彦宏以“欢迎来到生成式人工智能的时代”开场,发表了主题为《手把手教你做AI原生应用》的演讲。作为大模型浪潮正式到来后的首次世界大会,这届的主题被百度定为“生成未来”。发布会上首先亮相的产品,便是重磅的文心大模型4.0版本。相较于7个月前初次发布文心一言时坦诚的提到“不够完美”“承认差距”,台上的Robin这次显然更加从容自信:
“这是我们认为迄今为止最强大的文心大模型,它的基础模型实现了全面升级,在理解、生成、逻辑、记忆这四大能力上,相比于大家现在用的线上的文心一言版本是有明显提升的,综合水平跟GPT4相比也已经毫不逊色。”
从现场的演示看,文心大模型4.0版本的确涌现出了相当高的智能水平。李彦宏扮演了一个“刁蛮”的测试用户,向其询问到“我想回承德买房,能用公积金贷款吗,手续怎么办?我在北京工作。”而文心大模型4.0的回答表明,即便面对这类涉及乱序表述、模糊意图乃至潜台词的问题,它应对起来依旧游刃有余。
基于全新的文心大模型核心能力,百度在过去几个月里,对集团内部的几乎所有产品做了重构,即李彦宏说的“手把手教你做AI原生应用”。最核心的百度搜索在大模型加持下,已经具备极致满足、推荐激发、多轮交互三个特点。百度产品矩阵中的担当角色,如地图、网盘、文库等在重构后革新了用户体验。而像国内首个生成式商业智能产品“百度GBI”和“如流”这类新一代智能工作平台,则显示出“AI原生”这个新要素在生产力方面所能创造的巨大价值。
当然,百度自动驾驶基于大模型的新进展,也在这次会议上向外界做了展示。目前,百度萝卜快跑订单总量已超过400万单,是全球最大的自动驾驶出行服务商。百度集团资深副总裁、智能驾驶事业群组总裁李震宇以视频方式做了演示,他在机场打了一辆萝卜快跑的“真无人车”,车辆在繁华复杂的城市道路上穿梭自如,并最终顺利达到目的地,引发现场一阵惊叹。
相较于上面提到的这些互联网应用,自动驾驶跟大模型的结合有着特别的意义,因为它象征着大模型对世界的重构从信息空间拓展到了物理空间。如李彦宏所说,大模型将会让百度的自动驾驶能力超越经验系统,更聪明处理复杂场景,实现更广泛的时空覆盖。
01、自动驾驶长脑子李想国庆假期前的最后一周,拉着王兴和陆奇等人开了场秋季战略会。这场战略会上,智能驾驶被提到了空前高度,这群人单独花了一整天来讨论智驾要如何投入。李想本人在会上做了某种意义上的自我批评,他认为智驾应该提前半年投入,也就是从去年中,而不是今年初才开始上强度。
这个判断有着充足的现实素材做支撑。L2级自动驾驶在去年底已经成为标配,而具备高速点对点和NOA的高阶智能驾驶能力将在2025年达到15%以上的搭载率。从乘联会发布的乘用车价格段市场结构看,这个比例几乎涵盖了价格在25万以上的所有车型。相对应的,2025年智能驾驶在所有购车因素中的决策占比也将从过去的不到2%快速增长到超过30%。所以对于车企而言,尤其是瞄准中高端市场的厂商,智能驾驶是个做了不一定能活到最后,但不做一定立马就死的必选项。
这个过程中,基于大模型的生成式AI技术将扮演关键的催化剂角色。具体来讲,可以大致分成两个层面。
一是由于大模型具有理解、生成、推理、记忆的能力,它将完全重塑智能座舱的体验,“使得智能座舱内人的体验彻底变为人和虚拟人之间的一个全新关系”。未来人跟汽车的交互将从现在基于图形界面的GUI模式,转向更符合人类通过语言交流的LUI模式。在两年前的世界大会上,百度首次提出了“汽车机器人”的前瞻概念,而随着大模型在智能座舱上面的普遍应用,这个概念正在一步步变得具象和现实。
因此,在文心大模型的基础上,结合百度对于智能汽车的理解以及过去多年在领域内累积的人机交互数据,IDG进一步迭代出了智舱大模型。在具备文心大模型智力的同时,跟出行场景和车内环境做了深度融合。OEM厂商通过官方提供的智舱开发工具链,可以非常方便地打造带有车企自身特色的下一代导航、交互、信息服务、用车场景等一系列的智舱原生应用。百度智能驾驶事业群组智能汽车业务部总经理苏坦在论坛上的描述,就是“通用大模型、行业大模型和品牌大模型,是让用户体验变得越来越好的三级火箭。”
在智能座舱之外,大模型还将对自动驾驶技术本身带来跃进,百度称之为智驾或者视觉大模型。最近一段时间,国内自动驾驶行业最重要的一波技术潮流,就是车企纷纷转型基于BEV+Transformer的纯视觉路线。
在此之前,智能驾驶系统实际是以传统的组件堆砌方式实现的。例如在感知领域,不同的小模型负责不同的功能,然后这些小模型组合在一起形成一个系统。例如,车道线的检测、红绿灯的检测和障碍物的检测都由各自的小模型实现。但这种方式显然会给数据搜集和系统智能化的组合带来问题。
规划控制方面也类似,过去是基于规则和经验的系统,就是说提供一些预定义的规则或者训练系统时喂给它不同的场景,让系统知道后续再次遇到类似场景应该如何做。这样做带来了两个问题,首先是有些场景下你很难把规则说清楚。比如10月4号,清华、港大和UCB的研究人员就在arXiv上刚刚发表了一篇论文。他们举了个例子,如果前面的路口没有交通信号灯,而正驾驶车辆打算左转的你,迎面来了一辆直行车辆。这种情况下,熟悉交通规则的人类驾驶员直觉上就知道要减速让行,但现有的高级自动驾驶系统却往往需要设计极其复杂的规则或者奖惩函数才能有效处理类似场景。
其次是很难处理corner case,因为高频刚需的场景会给系统留下最多的“经验”。笔者在上海人工智能实验室和华东师大研究者合作的一篇论文里,就看到了一个有趣的例子。下面这两张图片非常类似,但左图在货车上的交通锥应该理解为货物,而右图在地上的交通锥又应该理解为真正的道路标识,而这两种情况又对应着不同的动作。你可以整一堆包含类似corner case的数据集,比如装交通锥的是大皮卡小皮卡或者三轮车,让自动驾驶系统学会应对这种情况,知道遇到作为“货物”的交通锥不需要刹车。但棘手的是,算法又会在交通锥作为“道路标识”的时候弄不明白状态。
而在有了大模型过后,自动驾驶系统也就被赋予了常识,汽车就像人的脑子一样,可以基于常识通过推理解决上面提到的问题。就像苏坦在下午的论坛上所阐述的,基于BEV的感知大模型正在以吞食天地的速度快速消灭过去多个零散组合式的小模型,从而形成完整的一站式的大感知模型。同时,决策和规划相关部分也开始迅速引入大模型相关技术,开始从过去的经验系统、规则系统快速变成一套学习系统和一个向上可自我迭代的智能化系统。
目前,百度已经基于BEV大模型打造了高阶辅助驾驶,并且跑通了泊车、高速和城市的全域场景。据苏坦介绍,在城市场景中,百度的纯视觉方案已经实现了与有激光雷达同样好的产品体验。对智能汽车行业有关注的读者大概知道,过去几年这个赛道非常卷,厂家经常以堆料的方式显示自己的诚意。 但归根结底消费者关心的是使用体验,如果去掉不需要的激光雷达,那么产品的物料成本会更低很多,车企也会有更好的竞争力。
在下午“大模型重构智能汽车”论坛分享的末尾,官方还披露了一个振奋人心的消息。国内首个纯视觉城市领航高阶智驾产品Apollo City Driving Max将在今年四季度量产落地,届时大家将能看到整个自动驾驶底层技术在基于大模型深度重构后所带来的澎湃的产品力、良好的用户体验和科技给整个社会带来的推动力。
02、“重构”带来机遇自去年底ChatGPT面世以来,国内的科技公司争先恐后加入到研发大模型的行列,把原本已经部分沉寂的AI行业推向了一个新的高潮。而与此同时,出于降本增效或是其他理由,大厂也纷纷对某些业务线做了收缩和调整。于是在这一进一退的对比中,也就有了外界解读和揣测的余地。
比如,不少媒体就认为大模型挤压了自动驾驶业务的生存空间,这是一个“新欢”取代“旧爱”的故事模板。
当然,这类新闻中引起最大关注的,是百度的动作。原因也很简单,过去十年百度一直坚持对自动驾驶和其他人工智能领域的投入。无论是在公众认识里,还是说实际的技术储备,百度自动驾驶都算是领头羊。而这轮大模型浪潮中,百度又因为最早发布文心一言并持续迭代给外界留下了深刻印象。
的确,过去这段时间百度在大模型方面的进展声量颇大,但由此下结论说百度放弃了自动驾驶就多少谈得上是癔症了。
说百度因为大模型放弃自动驾驶的人估计没搞明白一个技术问题,就是大模型本身就是自动驾驶的一个大buff。如我们在上面一章提到的,有了大模型过后,像是自动驾驶技术原来面临的复杂规则、长尾场景或是决策的可解释性这些都将得到改善。既然自动驾驶领域本身就落在大模型所要重构的目标域内,那么对大模型浪潮的追逐不就包含了对自动驾驶的追逐吗?何谈因此废彼呢?
事实上,业界的观点是自动驾驶技术即将在两三年内迎来拐点。弗若斯特沙利文的研报显示,虽然当前传统出租车/网约车单公里成本仍然显著低于Robotaxi,但到2026的时候局面就会发生逆转。
在智能汽车行业拐点临近之际,百度Apollo在技术落地和量产交付的时候反而是提速的。截至当前,Apollo汽车智能化解决方案已在31个汽车品牌、211款车型量产,累计搭载超900万辆。今年8月,搭载了Apollo Highway Driving Pro领航辅助智驾产品的新岚图FREE正式上市,也是Apollo行泊一体智驾产品的首款量产车型。接下来,在23年内还将有近十款搭载百度Apollo高阶智驾产品的车型量产。
对于一个累计投入了十年耗费巨大的领域,在它即将兑现红利的黎明之前,百度怎么可能放弃临门一脚呢?
03、写在最后在中国头部的互联网公司里,百度对技术的执着尤其突出。在过去超过十年的时间里,李彦宏对包括自动驾驶在内的人工智能技术做了持续和巨大的投入。所以当大模型浪潮到来的时候,百度已然做好了充分的准备。
就目前的状况而言,一个客观的现实是,百度在自动驾驶和大模型两方面都处于领先位置。由于大模型将在自动驾驶技术的发展中起到催化剂的作用,本就具有身位优势的百度自动驾驶大概率会因大模型的加持做得更好。毫无疑问,百度不会在大模型和自动驾驶之间做二选一,而是全都要。
*题图及文中配图来源于网络。