85后的周光拿到长城汽车1亿美金投资,折合人民币约7亿元。
他创办的公司,叫「元戎启行」。
1亿美元的融资,在汽车智能化大洗牌的寒潮期,对于「元戎启行」这样一家智驾供应商简直就是「救命钱」。
尤其,这笔钱还是来自于长城汽车的独家投资。
早在几年前,长城已经内部孵化了智能驾驶公司毫末智行,因此,对于元戎的投资,更是对其智驾实力的强有力背书。
据元戎启行CEO周光透露,这笔投资款已经到账。
包括这轮融资在内,元戎启行已完成6轮融资,累计融资金额超5亿美元。股东包括复星锐正、云启资本、阿里巴巴、耀途资本和东风资产等。
之后,元戎整个公司会进行全面升级。
首先,全力投入端到端2.0,也就是VLA(Vision-Language-Action,视觉-语言-行动)模型的的研发。“我们也跟英伟达进行了深度合作。基于Thor芯片搭载元戎启行VLA模型的车,能提供更优质的体验。”周光介绍道。
第二个战略大方向,则是会陆续开始部署Robotaxi,用量产车实现Robotaxi规模化运营。
“元戎启行的Robotaxi不受运营区域的限制,在时间成本和经济成本上更具优势,更有助于市场普及和加快Robotaxi的落地进程。”
而无论是量产车还是Robotaxi,周光始终强调AI能力是元戎启行在市场上的立命之本。
“我相信通用人工智能时代,AI会成为基础设施,也坚信元戎启行会是AI 3.0时代的主要参与者。”
1
—
真无图,下了板车就能跑
对AI如此看重,与周光本人的经历有密切关系。
周光本科毕业于清华大学基础科学班,博士毕业于德克萨斯大学达拉斯分校人工智能和机器人方向,是业内最早一批从事人工智能专业的人。
2016年周光加入百度美国研究院自动驾驶事业部,负责多传感器融合和感知深度学习算法,正式进入自动驾驶行业。
2019年,周光在深圳成立元戎启行,核心研发团队同样都是业内最早一批从事人工智能专业的团队。
很快,周光带领元戎启行开始布局「无图」方案。
2023年,元戎启行正式发布去高精度地图的高阶智能驾驶方案Mapfree。同年年初,周光带领元戎启行开始布局“端到端模型”,同年8月,元戎启行完成端到端模型的道路测试。
今年正式推出了基于端到端模型的高阶自驾平台DeepRoute IO。
凭借着率先实现「无图NOA」,元戎拿下了第一个客户。
但在与第一个客户接触时,对方并不相信元戎是真无图。
“某友商说元戎一定有图,无图一定是假的,我们拿给客户的时候,客户也不信。”
最后,周光让客户指定了一个地方,元戎直接把车拖到该地点,下了板车就开始现场路测。
在没有任何作假的可能性下,元戎的测试车在县城穿街过巷,能力得到认可,最终拿下了客户。
在周光看来,这就是「Tech Vision」——即元戎成功预判了技术路径的演变,率先转向无图NOA和端到端,所以才能后来者居上。
2
—
Robotaxi一定走得通
但不是靠L4
在谈到Robotaxi时,周光特意解释了一下在年初的百人会论坛上关于“L4都是骗人的”言论。
“很多人误解为元戎启行是说Robotaxi有问题,但L4和Robotaxi是两个东西。”
周光表示,L4是技术路径,是指采用模块化、高精度地图的方式去跑车。
“我认为L4这个技术路线是有问题的,但Robotaxi是一个商业化过程,目的是让机器人代替人开车,不受任何技术的定义。Robotaxi这个商业路径我们认为一定能够走得通,关键是用何种技术路线走通,我们认为L4技术路线可能没有那么好走通。”
基于这些判断,元戎采取的是基于AI驱动的端到端2.0架构,也就是VLA模型。
去年谷歌DeepMind发布的机器人大模型RT-2,就是一种全新的VLA模型。
它通过文本和图像进行训练,让机器人学习“知识”,从而完成创造性任务。
举一个简单的例子,如果我们希望机器人去厨房的冰箱中拿一个苹果,普通机器人的执行过程一般包括以下几个环节:
1、任务定义与描述(去拿一个苹果);
2、把任务拆解成一个一个细小动作(进入厨房、打开冰箱、拿出苹果、关闭冰箱等);
3、工程师根据分解动作对机器人进行编程,生成代码;
4、控制-执行-反馈。
如果对应到周光说的L4技术路径,这些步骤就是一个个模块,工程师需要进行大量的场景任务拆解和策略应对。
但对于RT-2,只需将数据中有关冰箱、苹果的概念和知识(图片、视频、文本等)直接传递给机器人,让机器人通过“学习”这些概念和知识,逐步构建相关的概念框架,就能让从未受过拿苹果训练的机器人,知道怎么打开冰箱拿苹果。
这就是所谓的零样本或小样本学习。
将VLA模型放到车上,目的是让智能驾驶系统拥有更高阶的思考能力,能够理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。
3
—
明年推出端到端2.0模型
目前业内对于端到端主要分为一段式和两段式,后者即将感知和规划两个模块,分别实现端到端。
而即使是感知和规划融合的一段式端到端,外部还需要外挂一个VLM视觉语言大模型,在面临复杂甚至未知交通场景时帮助一段式端到端系统做出最佳的驾驶决策。
理想汽车的智驾系统就是这一套方案。
对于VLM和VLA,周光用一个比喻来解释了两者的区别。
假设有一个新手驾驶员和一个教练,VLM就是教练,但教练什么都不做,只通过语言告诉新手驾驶员怎么开车。
“这是一个落后的架构,但比一个新手司机会强一点。”周光补充道。
而VLA,则可以认为是教练亲自开车。
周光还透露,元戎将基于英伟达Thor芯片进行VLA模型的研发,预计将于2025年正式推出。
同时,周光还提到,即便后续VLA这个方向大家认可,但也不能跨过端到端1.0阶段直接一口吃成胖子,而是渐进式发展的过程。
此外,搭载系统的量产车数量也是关键。
周光认为,端到端1.0阶段,量产车在万台水平就能有较好的效果,但真正要做VLA,10万辆量产车水平是一个入门券,否则很难迭代。
据悉,目前元戎在接触的高阶智驾量产项目已超过10个,其中包括了奔驰Smart,车型也涵盖SUV、MPV、越野等各种类型,现阶段搭载的量产车数量接近2万台。
“相信明年这个数据会更好,能到几倍甚至10倍。”周光说道。
4
—
最终活下来的玩家,不会多
从早期的激光和视觉的像素级前融合,到无图智驾理念的提出到落地,再到如今的端到端智驾,元戎走了一条不短的进化之路。
伴随着ChatGPT的爆火,押注AI的元戎终于从边缘玩家成为行业关注的重点。
“以前我们解释不了为什么要选择这条路,但Open AI出来后重构了大家的价值观。”
当前,元戎的业务模式已经明确:
一个端到端系统,两条商业化落地路径。
第一条是量产业务,跟车企深度合作,打造爆款车型,将端到端模型应用上车,共同打造智能驾驶车辆;
第二条是以开放的态度,基于端到端模型、量产车,去跟车企/第三方运营商平台合作实现Robotaxi的规模化运营。
前者更偏向企业品牌的打造,后者则更是为了采集到更有价值的数据。
“相比量产车,网约车数据具有更高的熵(熵越高,表示数据的混乱程度越大,不确定性越高),价值更高。”周光解释道。
而对于未来行业的变化,周光强调自动驾驶说到底,就是AI的竞争。
“往AI这边走不会存在那么多公司,因为AI的门槛比较高,不管是资金、人才密度、还是窗口期的门槛,我觉得这个赛道不太可能成为蓝海,能够活下来的公司都挺厉害,但我认为不会特别多。”