车东西对话商汤绝影CTO肖枫:端到端、多模态成主流,端云一体同步发展

车车东西 2024-11-30 09:22:54

车东西

作者 | Janson

编辑 | 志豪

车东西11月28日消息,昨日,商汤绝影成功举办了「绝影实力AI DAY」,展示商汤绝影在智能汽车领域创新成果和技术布局。

在活动现场,商汤绝影CTO肖枫和蔚来汽车数字座舱人工智能研发负责人高杰接受了媒体的采访。

采访主要围绕智能汽车领域的技术发展趋势、商汤绝影与蔚来汽车的合作以及智能汽车的未来发展等方面展开。肖枫和高杰详细介绍了双方在端到端智能驾驶、多模态交互以及具身智能等方面的创新成果和未来规划。

媒体采访现场

肖枫强调,商汤绝影在数据平台上的技术积累使其在端到端智能驾驶领域具有优势,而高杰则分享了蔚来汽车如何通过NOMI车载机器人实现智能座舱的个性化体验。双方均认为,随着技术的进步,智能汽车将更加注重用户体验,实现人车共驾的和谐状态。

在谈及智能汽车的未来发展时,肖枫和高杰均表示,端到端智能驾驶和多模态交互将成为主流趋势,而具身智能则在智能座舱领域具有巨大的潜力。同时,他们也指出了目前智能汽车领域存在的技术挑战,如数据隐私保护、算力储备等,并提出了相应的解决方案。

总体而言,商汤绝影与蔚来汽车的合作不仅推动了智能汽车技术的发展,也为用户带来了更加智能、便捷的出行体验。随着技术的不断进步,我们有理由相信,智能汽车将成为未来出行的主流方式。

以下是采访现场实录,车东西在不改变原意的基础上进行摘编。

一、自动驾驶论资排辈 商汤核心优势是?

1、去年在智能驾驶、智能汽车圈里面突然冒出来一个说法,说是有头部四大供应商叫“地大华魔”,今年这个格局改变了吗?先问一下我们绝影认同这种排序的尺度吗?

肖枫:这种说法应该是代表着之前智驾领域很优秀的企业,大家知道现在智能汽车后面最大的一部分就是智能化,作为非常有底蕴的AI公司,我们绝影在未来智能领域非常有前景,会成为第一梯队,因为它代表着智能化的趋势。

追问:今年大家都端到端了,端到端之后,我们现在竞争的是什么呢?

肖枫:其实您也知道,端到端和以前不是端到端的最大的区别是,它的上限会更加高。你指的是端到端以后的机会在哪边是吧?

追问:对,就是大家现在怎么排这个实力或者我们的潜力。

肖枫:实际上端到端在2023年的时候,绝影在CVPR上面就有一篇非常优秀的论文,当年是最佳论文,这两年整个投入也是非常大,今年已经有两家主流车厂和我们合作做端到端了,预计明年年底会正式量产,整个节奏跑的还是非常快的。

2、绝影的成本和报价是怎么控制的?报价大家可能不会差太多,但是背后的成本控制能力可能是千差万别的,造成这种差别的核心因素是什么?

肖枫:端到端在前期看投入会比较大,因为以前核心是基于规则系统,端到端是让核心变成全域的数据驱动的趋势,后面会省钱,依赖的成本也会更低,核心就是用模型做驱动了,商汤绝影在数据平台上的技术积累要比别的纯自动驾驶公司来说更深厚,因为我们是一家AI公司。所以后续跑起来,商汤在未来的机会会更高,依赖的成本也会更低。

追问:所以技术路线是影响因素,大家说的一段式和二段式,其实并不是最根本、最核心的东西。

肖枫:一段式和两段式的差异,决定了智驾水平的上限,在这个基础上,未来竞争的核心是对数据合成方面的能力,待会儿王老师在发布会上也会提到,我们的世界模型现在是非常领先的,这一点是根本的核心。

3、我想顺着问一下,您刚刚说到了领先,咱们业内判断哪个比哪个更领先,具体的标准有没有可以跟公众解释的、比较清楚的部分?

肖枫:就用您问的问题来说,比如现在有一段式、两段式,现在好多都在说一段式,但是细究是真的一段,还有几段融合在一起的一段,商汤这边是真的一段式。

追问:所以真的比假的要更高级一点,是吗?

肖枫:跑在后面的时候,它的优势就会明显地展示出来。因为端到端关键是考验数据能力,它是完全数据驱动的,AI公司本身就是数据出身的,特别是做视觉数据、多模态,商汤都占有领先地位,所以越往后面跑,我们的优势越能展示出来。

追问:但是我们读者可能会有一种理解,两段式是为了规避端到端大模型黑盒的下限,因为有很多东西你是无法判断它到底是怎么处理的,所以我们会把它拆分得更细,这样可控性更高一点,按您的理解,这种想法其实也不是特别准确,对吗?

肖枫:这是一个过渡过程,这个过渡过程如何快速地收敛成大家期望的模式,实际上就是靠数据飞轮,数据平台合成能力越快,融合能力会越强,收敛也会越快。

追问:咱们其实已经跨越了,就是靠数据优势来弥补了这方面的短板,是吗?

肖枫:我们端到端方案一开始就是一段式,现在也会通过一些规则做兜底,但是随着数据飞轮越来越强劲,未来会逐步走到大家希望的模式。

4、我们可以理解商汤绝影的优势是在于数据,那咱们现在也跟很多主机厂合作,把大模型技术搬上车的过程,目前遇到最大的技术难题是什么?咱们是怎么去克服的?

肖枫:从去年开始,大模型在车展上面开始对外宣传以后都是以工具的方式上车,后面逐步往AI Agent方向发展,就是它不光是做一个简单工具,也可以做复杂任务了。待会儿王老师发布会上就会介绍,我们已经超越了第二步,我们现在称为第三步,不光让车更加智能,而且让智能也有了温度。

追问:怎么理解这个温度?我作为使用者能感受到吗?

肖枫:你会感到不是跟一个机器在沟通,你是和一个人在沟通。

追问:这个是不是有点像以前我们跟Siri对话和现在跟Chat GPT对话,就是它更拟人了。

肖枫:不光是这个,以前Siri和Chat GPT还只是文字、语音交互的方式,我们现在是多模态,它能够感觉到你的表情,感觉到你的感情和性格,都能体会到。

追问:就是交互的方式更加多样化了,是这样吗?

肖枫:对,而且更加主动化。

追问:这个对于车型本身的硬件会有要求吗?需要适配的条件非常严谨吗?

肖枫:有一定的要求,但是我们在做开发研发的时候已经考虑到这一点,所以我们会做端云融合,根据不同车型的能力,部署不同的场景在不同的端和云上面,让这个体验还能保持一致。

追问:所以这个灵活性还是比较强的,是吗?

肖枫:对。

5、最近关注到乐道L60上市大卖了嘛,所以想了解一下绝影产品上车L60背后的故事,比如你们的合作缘起是怎么样的?有没有一些故事可以分享一下?两位都可以回答。

高杰:其实跟商汤绝影的合作应该算是源远流长,有很长时间的经历了,其实绝影在今年也获得了蔚来内部最佳合作伙伴质量奖,也就证明我们达成了很好的合作关系。

如果讲到说怎么合作或者缘起是什么的话,可能先回到我们自己本身想做哪些事。对于蔚来来说,我们对产品体验有很高的要求,其次非常强调我们的技术有自主可控性。大家提到蔚来,第一个关键词是“全栈自研”,基于这样的考虑,要说出我们自己的产品体验诉求,刚才肖总提到AI Agent,实际上内部的产品叫做NOMI车载机器人,NOMI一开始讲的故事,或者给大家我们内部的北极星体验,一直想追求的体验就是真实的、有温度的体验,像NOMI名字翻译过来就是懂你懂我的意思。

基于这个,我加入蔚来2021年左右,我们一直讲,NOMI就是一个Agent,那Agent需要什么呢?简单来说,就是需要无所不知的感知,需要有非常强大的决策推理能力,需要有一个无所不能的执行能力。

基于这样的考量,比如说在感知方面,今天多模态随着Chat GPT系列发布,让大家觉得已经是特别平常的东西了,但是在我加入蔚来之前就开始讲多模态了,那时候我们一方面思考产品形态是什么?架构怎么搭?另一方面要跟业界最好的合作伙伴一起考虑,当然在视觉方面肯定是跟商汤绝影这边一起合作和共创了,其实两边一直实现了非常多的功能,也做了非常多原创的东西, 比如双方一起开发了全舱记忆功能,简单来说就是人脸识别在座舱里面的应用,但是里面不光是技术问题,还有产品设计的问题,体验的问题等等,双方经过了非常多的磨合,真正把这个功能量产了。今天我们的乐道L60在对用户隐私和数据安全保护的前提下也搭载了这样的功能,L60作为家庭定位的属性怎么去服务全家人,怎么让大家都欢乐的产品诉求,这是我们比较重要的一个点。

再往后蔚来也在迭代新的数字平台,比如在空间交互和多模态大模型等,其实双方在接下来有非常非常多的合作,这些新的特性随着新的产品推出,慢慢会让大家看到。

肖枫:我稍微补充一下,刚才高杰总已经说了,乐道上面通过FaceID实现了识人,我们后面加入多模态大模型,这样以后不光是识人了,识人是第一步给大家感觉到智能化能力,后面通过识人积累越来越多的信息,我们称为记忆,记忆到一定程度就会变成相知,从你和车的认识开始,有一个互相之间的理解过程。

理解以后能做更多有温度的事情了,最终希望比如未来的车跟车主之间形成相依的关系,就是互相之间离不开了,对车厂来说,这一点是非常珍贵的,因为他的品牌得到车主真正的认可,他如果想换车的时候,会想到,在蔚来这个车里面已经有了这么多记忆了,换一个车的时候,这些记忆是不是能够迁移过去?这些就会形成非常好的品牌粘性。

6、最近不同车企,不同厂商都在说车端布局大模型,也有说云端布局大模型,这两个路线或者两个相悖的观点您怎么看?

肖枫:实际上从使用角度,车没有云也需要能够正常运行,车端大模型的运行会逐渐变成一种刚需;但云端的扩展性和开放性大家都是非常理解的,特别是在云端还会连接各种AI Agent,比如说旅伴,你要做旅行规划云端会更强。未来这两个端云肯定是一种协同,同时为了数据的隐私,端上的数据和云上数据都会做保护,我们现在也做了很好的技术方案,这些我们都在做。

还有不同的场景,通过大模型做智能分发,有些场景会放在端上,有些场景放在云上,但是对于用户来说是无感的,他会感觉到一个整体化的端云结合的模型在为他做服务,给他提供智能化,这就是趋势。

高杰:我再稍微补充几句,今天大家讲端云协同的时候,刚才肖总已经讲得很具体了,就是两边怎么协同。我自己最近的体验,其实大家的关注点是在端上模型到底有没有用,或者有什么用的模型上来说。

我自己思考了差不多一年多这个问题,也看到其他行业,比如说手机纷纷搭载大模型,那汽车这个行业里面究竟需不需要端侧大模型?其实我们做了很多的思考。

近期来看,我个人感觉,如果要去落地,切入点还是个性化或者隐私相关的,因为端侧大模型带来的好处无非这么几个:全时可用性,数据隐私比较好,不需要联网,相对速度比较快。我自己推演下来,相对来说还是所谓懂我的、有温度的、跟个人数据相关的东西,可能是短期内最大的推动力。

为什么要讲长期和短期呢?如果要在端云部署的话,还是要依赖整个硬件或者芯片算力的迭代,大家会发现,在云端的算力,比如大家过去讲AI算力过去十年涨了100万倍,那么端侧的算力,可能之前大概是几个T,现在座舱领域涨到不到100个T,接下来很快会迭代到300个T、1000个T,它会有一个增长的过程。等算力增长以后,我自己的个人判断,其实汽车就是大家讲的,目前最典型的具身智能中的一类,当然今天讲起具身,很多时候大家会把关注点放在人形机器人上,其实汽车可能是最有机会真正实现具身智能的。如果按照这样的想法来思考这件事,你会发现端侧的模型其实就大有可为了。

商汤绝影车载类人记忆框架

7、随着端侧模型芯片不断迭代,会和智能驾驶融在一起吗?蔚来也在做世界模型的工作,而且蔚来当年提出世界模型,这个本身就是自己认知能力的改变。

高杰:您是两个问题,第一个问题是说两个域会不会合并,第二个问题是世界模型对整个车的影响,是吧。我现在还不太敢推断说会不会舱驾融合,如果大家在一些科技公司待过,是不是融合,到最后就看一个是,就是所谓的效率。

一个叫做效率,一个叫做速度,在工作中同时追求两个东西,如果你去追求极致效率的时候,所有东西都尘埃落定了,合在一块,大家共享一个芯片成本最低,这是追求的。但是现在无论是座舱也罢,AD也罢,大家都在迅速的往前发展,这个时候大家各自跑可能是更快的,这是作为一线工作者的感觉。什么时候这些事情都被发生了再去考虑效率的问题,因为现在很多事情都看不太清楚。

第二个问题您提到蔚来在世界模型上面的建设,其实蔚来世界模型也发了新的版本,因为我不是自动驾驶部门的,我可以说一点,也可能很快给到大家一些新的惊喜。

刚才我说的,具身智能,今天大家关注点是自动驾驶,肖总刚才一开头的时候可能说得很明确,我把他的观点再转述一下。像智能座舱或者广义的智能座舱,可能在接下去一段时间会带来爆发式的增长。今天大家会看到AD从一开始的规则到BEV到端到端到无图,一路卷过来。从我自己的预测,在座舱领域也会出现这个过程。

回到具身智能问题上,我怎么看这个事呢?最近我也跟大家做了一些讨论,我自己有一个观点,我觉得具身智能应该解决三个问题:

(1)具身导航,也就是解决从A点跑到B点的问题,今天智能驾驶在解决这个问题。

(2)具身交互,这个问题明显自动驾驶没有关注,是座舱在解决。

(3)具身操作,比如说你让机器人把这个水拿起来,它怎么解决这个问题。这个问题能看得见的将来,也是被座舱这个领域去解决的,因为它的执行器不光是域中单元加速减速,左移右移这些东西,车里面有很多很多的执行器,比如说灯、窗,这些东西都可以看成是执行器,如果以这个观点来思考这件事的时候,具身交互和具身操作在汽车领域,我觉得会有显著的增长或者爆发式的增长,大概是这样的一个判断。

肖枫:我稍微补充一下,因为我以前做操作系统出身的,做了好多年,实际上舱驾融合这个话题谈了好久,最初都是希望一个芯片做好多事情,把舱和驾的事情都做了,后来开始转到操作系统层面,叫做分布异构的操作系统,好多公司在做,再往后面,听到最多的叫做SOA框架,一个很大的价值就是把车里面智驾域和智舱域全部连起来。

现在从我的感悟来说,未来的舱驾融合可能会更是在AI化的那一层,如何能够把它统一起来,因为每个车厂有不同的定位,比如说一些大的传统车厂,因为它有低端的车,也有高端车,可能就得有几个不同的芯片平台,因为它付不起高端的一个大芯片来一统江湖。

对于新势力来说很好,因为它没有几款车,很容易统一。对于用户来说,其实他不关心你底下是几个芯片,几个操作系统,用户就是体验,我累的时候自动驾驶AD那边能不能主动告诉我,我能不能帮你接管了,这段时间的路况是不是适合用自动驾驶,我帮你接管,然后你答应一下,他就给你接管了,这个就是从体验层面能做什么。体验层面为什么能够做到?其实就是怎么做好真正舱驾融合的智能化,智能化是关键的关键,我觉得未来比如说整车记忆,怎么把舱内记忆和驾驶记忆融合整车记忆,让大家在开车的时候更舒服,按照车主记忆里面最合适的方式来做执行,这是一个大趋势,剩下就看谁能做得好了。

二、端云结合边界在哪,智驾算力储备几何?

8、刚刚高杰总有一个关于具身这块的考虑,其实回答了我一个问题,因为我原来一直在想,现在大家在做座舱确实越来越相似了,那你怎么能做出一些差异,这是我之前很好奇的点。

接着往下再考虑一下,其实我们可以在座舱里面做更多的东西,它其实也是需要一个时间的,对于这个大概会有怎样的时间规划,达到刚刚表述的那些状况,过去几年确实能看到智驾这块变化很快,座舱这块之所以前面大家讨论相对比较少,可能觉得变化确实没有智驾那么快。那我们怎么才能让智舱的变化也去达到很快的跨越式的发展?

高杰:这个问题我跟肖总在线下有非常非常多的讨论了,刚才他说自己其实做了好多年的操作系统,我们俩也是老相识了,在做操作系统的时候,我们那时候就做了很多讨论。

简单来说,座舱在过去十年是被网联化这件事驱动的,更简单的说,大家正在借鉴或者说受益于移动时代的变化,大家知道今天座舱的操作系统核心就是类安卓的东西,所以整个体系和应用生态,处理的体验,都是在过去十年中过来的。

如果放在十年前,2016-2020年你不会觉得座舱没什么新意,那个时候把移动生态往上搬,大家就会觉得很有新意了,有很多不同的地方。但是走到今天,即使手机自己的迭代也都已经停滞了,大家很少再说操作系统本身有什么新的特性出来。

这一波,无论是手机厂,还是汽车主机厂,新的驱动力还是依赖于AI大模型。那大模型来自于哪呢?我最近一直告诉自己或者一直跟大家讲的,其实就是Agent,从它的原始定义上来说,它就是AI的代名词。大家讲AI要做什么呢?AI最终体就是要构建一个跟人很类似的能力,代理就是Agent嘛。第二个,Agent是什么?今天大家讲的狭义的Agent还有一层含义,就是以大模型为中心的新的软件形态,在这件事上面,几乎所有的巨头,都在这个事情上面倾注了无数的资源。我们可以看得见的是,在基础设施上,这件事基本上快ready了,剩下就是拿Agent这件事出来新的软件,新的体验往前走。

您的问题是整个节奏点是什么样子的,我认为还是分两步,第一步比较简单的,Agent首先存在于数字世界或者是纯软件的世界。今天真正的领导者还是手机行业,如果大家关注到过去中国和美国所有手机厂商的话,大家在这方面其实已经给出了自己的答案,苹果给了他的apple intelligence,国内的所有手机厂商都围绕着某某intelligence意思就是AIOS,包括三星也有类似的东西,它的核心就是围绕AI Agent概念打造一个新的软件生态。这个解决什么问题呢?第一个是个性化数据能够给到Agent,让它的体验更拟人、更懂我、更有温度。第二个是现有应用生态怎么被Agent调用?从传统的mobile生态变成Agent生态的问题。这件事儿无论是手机行业,还是在汽车行业,这件事基本上是近在咫尺。我觉得在半年到一年的周期就会发生非常明显的变化,当然今天apple已经出来一些东西了,我会觉得大家都跟的很快。

刚才说叫数字世界容易一些,另外一个是物理世界,如果我们把汽车看成物理世界的Agent(具身AI)它的时间会更长一些,它需要解决的是物理的东西围绕着Agent概念去重新设计。比如肖枫说的芯片的融合,底层SOA架构的搭建,这些东西是真正构建以大模型为中心的汽车具身智能的前提。

刚才肖总说的这个事,主机厂良莠不齐,大家进度也不太一样。当你做完上一步的时候就可以进入这一步了,我能看到比较领先的主机厂都有类似的思考。即使这样我觉得还需要两年多时间,甚至更长一点点时间真正做出特别惊艳的、跟大家不太一样的东西吧,因为它是一个系统性的工程。

商汤绝影带来车云一体思路

9、下面的问题想问一下肖枫总,还是回到车端模型和云端模型,这两个角度去看。现在车端模型来讲,很大一部分要依托于车端本身的算力,但云端是没有这个因素影响的。现在对于主机厂来说,大家方向也不一样,一部分去拔高,可以把车做的更贵,不去考虑芯片的成本。还有一些慢慢把价格降低,甚至做一些传感减配,对于未来发展来讲,最终所有的车都要配上智能驾驶,甚至端到端方向。从这个角度来考虑的话,您觉得云端的重要性会逐步凸显吗?

肖枫:这是比较好的一个问题,其实在问端的价值在哪边,云的价值在哪边。刚才高杰总回答了为什么需要有端,我觉得回答的非常好,已经很透彻了。我来跟大家说一下为什么要有云,我们现在已经尝试部署更大的模型,从功能来说,实际上云端是有两个方面,一方面云端可以host更加巨大的模型,它可以做很多段侧模型做不了的事情。现在大家说到大模型就叫大力出奇迹,大模型参数越来越大代表它越来越聪明。无论如何在云上面的资源和端上面其实是不可比的,可以支持不同的场景。

OpenAI推出o1,开始了慢思考,现在慢思考越来越多,我们也讨论了很多慢思考的场景,因为车里面有些答案不需要马上回答,你可以在开车的过程告诉它,你想做一个比较复杂的事情,它可以慢思考去做,实际上就有可能在云上面用巨大的算力帮你慢慢的算出来,这是展现出模型大的价值来。

另一方面云上还可以做数据管线,数据合成,类似于辅助型的能力。这类服务现在也越来越多的在使用。云上的能力也会越来越强,但是它和端之间会互相协同,这也是必然的趋势,两个都会不停地发展,最终融合在一起。

10、现在对于智驾来说最核心的就是数据和算力,刚才也讲过,商汤在数据这块是很强的,现在关于算力大家投入还是挺大的,都在疯狂军备竞赛,对于商汤来说怎么保证我们在算力储备上不掉队呢?

肖枫:商汤算力的储备其实是很强的,我们在临港就有一个巨大的算力平台,现在整体算力加起来差不多达到2万P,其他的自动驾驶公司,他们后面基本都没有这么大的算力。此外商汤有基模型,在benchmark center上面排位都是很高的,而好多自动驾驶公司也是没有基模型这些能力的。最大一点是数据,本身商汤就是计算机视觉出身的公司,特别是多模态以后视觉数据的积累也是别的公司不能相比的,这些门槛对于我们来说,特别是大模型出现新的技术形态以后,我们的储备是很强的。

对于绝影来说,绝影很清晰它的定位,它就是To B公司,专门为车打造智能化的公司,但其他AI公司To C和To B可能都会做,很多纯粹是To C兼带着看B端上面有什么机会。对于绝影来说就是To B为车厂量身定制,给他们智能化赋能。总体来说,我们在最好的时间又有了很好储备,所以对于我们来说后面的机会很好。

三、座舱大模型上车热度当下 核心技术在哪

11、刚才两位提到目前重点发展多模态Agent。刚才高总也提到,这可能是一个系统工程,可能要好几年时间才能完成,它本身是一个系统,但可能也有几个重点需要突破,那么哪几个重点是最核心的呢?

高杰:数字空间的重点,第一个是要想清楚自己的技术栈,第二个是想清楚自己的生态位。其实说得比较激进一点,它会形成新的入口的形态,那么你怎么构建入口控制的技术,回到纯的技术维度,就是怎么构建多Agent框架,怎么把它们协调好,这是第一件事。第二件事,怎么想好自己的生态位。因为这一波数字空间的机会也不仅仅是车厂发起的,手机厂也在发起,其他独立的商业巨头,比如说豆包、文小言,他们也在卷这件事,所以想好自己的生态位,怎么跟他们一起构建新的体验,这是短期内。

长期来看关键点是什么?它是一个系统化的体验,必须从上往下一层一层拆下来,你说哪是关键?我觉得哪哪都是关键。我快速的说一下,上面的核心中控大脑,多模态端到端交互大模型要搞,中间的应用操作系统层怎么把用户数据导进来,让大模型调用或者编排下面的服务要去做。再往下是做硬件的布置,芯片算力、传感器、执行器,怎么去布置。你让我讲哪个是重点,我也很难讲哪个是重点,它是属于缺一不可的过程。

类比自动驾驶,如果你做好自动驾驶需要什么呢?今天大家关注点是这些热词,比如说端到端,其实它是一个系统工程,底层线控不行,没有算力平台,不打通,它也做不出来,所以我觉得可能处于这么一个阶段。

12、大家都在谈大模型上车,从去年开始大家一直在谈,但是目前更多还是技术的进展。如果从用户角度来看,各家车厂如何打造自己的差异化呢?

高杰:如何打造自己的差异化?其实到最后就变成了围着自己产品定位的问题。怎么定义自己的车?如果把自己车定义成工具属性,那就是完成工具属性的部分。其他的我不好评论,我可以讲讲蔚来,我们自己车载的智能伙伴NOMI是我们一直所追求的。

我多次分享过,我们追求三个方面的体验,第一个是极致的人机交互,今天大家讲多模态叫什么?就是创造极致的人机交互的一种手段,就跟今天人和人之间交流一样,它能够看到你的上下文,能够非常自然地交流,这是第一件事儿。

第二件事儿叫做实用价值,我们原来有一个名字叫做全能帮手。这个跟刚才的应用生态有点类似,它能帮你完成任何事情,你问它什么都知道,你让它做什么都能知道,这是第二件事情。

第三件事是懂我的情感伙伴,要建立类似于人和人之间长久的依赖或者是依存价值。拆解下来的关键字就是个性、懂我、养成、情感,这是我们一直追求的。我们内部经常拿马斯洛需求理论做推演,最上面的情感价值是最难的,也应该是我们一直追求的价值。 当然,今天这个方向被越来越多的巨头所认可,比如Apple Intelligence是讲隐私数据,微软现在也开始讲companion for everyone,就是每个人都需要有一个自己的companion,其实跟我们的理念越来越像。这是每个公司自己想追求的东西。

13、现在车圈都在讲大模型或者什么之类的。因为GPT5一直没有发出来,业内有一种声音就认为Scaling law可能撞墙了。咱们是怎么看待这种声音?作为车企或者供应商,如何应对这些技术的变量呢?

高杰:像蔚来这样的公司,我们自己会关注自己的基础模型,但是肯定没有像商汤这样做的这么重。我们有自己的NOMI GPT系列,相对来说肯定是投入量没那么大。我们的关注点更多是在应用层。我转述一个话,大概是扎克伯格说的,大概意思是说,现在不用考虑模型再往前走了,现在的技术让你做应用做五年都消耗不完。我们的关注点在怎么把当前的技术消化掉?因为当前的技术在飞速发展。

前段时间我们内部做一些讨论,我也帮大家盘点了在过去六个月中发生的很多事情,已经很了不起了。GPT4在五月份发出来了,人和人之间对话往前跳跃的可能性,像O-ONE这样的模型,就是推理时间长思考的也发出来了。即使前面失效了,怎么在计算时、推理时给它更多的是算力,让它更变得更聪明,又有新的应用场景出来了,这是模型本身也在发展。

另一方面,刚才大家讲了很多Agent,现在Agent这样的应用生态,就是底层完了之后,上面的工具链应用生态,大家也在做很多很多的进展。无论是微软上周发的AI工厂,还是看昨天的MCP,类似于Agent生态的一套工具链出来。在应用层,现在是非常蓬勃的在发展,所以从应用角度来说,我们一点都不担心这件事儿。我已经把后面两年的事儿都想完了,所以从应用角度,我们不太担心这件事儿说撞墙了,我觉得这波技术或者技术跳跃之猛烈,足够大家有很长时间来消化。

肖枫:我稍微补充一下,实际上高杰总刚才聊了,大模型在发展,scaling law这部分各有各的说法。有的人觉得好像到了天花板,有的人觉得还早着呢,因为它有不同角度的测试结果在这儿。但是大模型本身你可以从横向通过参数往上走,还有往纵向的深度在走,比如说慢思考就是另一种方式,像deep thinking一样往前走,本质上是产生另一种的可能性。

对用户来说其实它的核心是体验是什么样子,就是怎么用好这些基础的技术,怎么能够创造用户想要的体验。情感上面怎么感受到温馨,怎么感受到温度。今天发布的New Member,实际上就是特殊的一种拟人化的感觉,它核心用了底下几个技术,大模型只是其中一个,多模态大模型可以做感知推理,还有就是记忆能力,产生长期记忆,短期记忆,产生了知识图谱,慢慢的学。支撑这些能力还有一个Always-on框架,相当于你坐在车里面每时每刻都在帮你做推理,都在帮你做记忆,而且记忆会跟着你。我们下一步把这些记忆还扩展到,不光是车,还有其他端上面,让记忆产生共享。实际上家里面最温馨的就是她或者他能懂你,记着你的好多点点滴滴,你想吃的,你想做的,可以用最舒服的方式帮你做好你想做的事情,这一点是最有价值的。后面可能会产生更好的技术,关键是怎么用好这些技术,给用户产生价值,这是关键。

14、今天我们说到的很多智能都是非常深度的体验才能够传达到消费者那边的,但是现在很多消费者,甚至连智能驾驶或者很简单的车机交互,他们去门店试车,或者他们做购买决策的时候根本都体验不到,他们的时间太有限了,或者就连销售也没有做非常basic的training,他们可以怎么展示。我们要把这么好的功能传达到消费者那里,再让大规模的量产成为现实的话,中间还需要克服很多的障碍,怎么给公众做传达?

肖枫:他们有举一个例子什么叫懂你,以前一个车厂老总和我聊,比如说晚上开了好多会,客户有很多应酬,回家了以后。一种是你回家以后开了门对夫人说,帮我倒杯茶,再拿个拖鞋。实际上真的懂你的场景是,你很累的时候,坐在那边,你的茶就来了,你的拖鞋也已经到了。用这种方式回答你的问题的话,现在很多功能需要明确告诉你,你应该怎么做,去引导你。如果是后面一种,它会根据你现在的状态,我们叫察言观色,知道你是什么情况,服务会主动来找你。

15、但这显然已经成为他的主人,跟它磨合了相当长的时间才能体会到它的好,对吗?

肖枫:对,有些公共的能力我们可以通过大数据挖掘的方式知道,因为大部分人在这种情况下需要这种服务,所以不光是从零开始的,其实已经有一个水位了,在水位上面就是你的差异化,每个人不一样的了。以后会更简单,它会猜出你大概需要做什么。

16、从具体功能来看,他们的训练里面就已经预设到你会需要什么样的服务或者你的体验中哪些会让你非常的惊艳,有可能这个车子在第一次见到你的时候,你体验它的时候,它就能让你感知到这些东西,是吗?

肖枫:对,我们还跟一些高端车的老总聊过,他们现在最担心是,高端车好多功能都没有机会去用,用户不知道怎么用。如果把智能化放在这里的话,它会根据场景主动推荐你用这种功能,你甚至都不知道的时候这个功能已经开始使能了,就是这么一种趋势。

17、我们想象以后智能座舱的展示可能需要单独的展位,甚至不需要车子在那里,只需要把功能介绍给大家。这种模式也是会普及的,是吗?

肖枫:也是一种,我们称为心有灵犀,形成了很多默契,这是我们希望达到的一个方向。

高杰:我稍微补充一下,我从两个方面来回答这个问题。第一个问题是从大众接受上来说,不用特别担心,因为任何新的技术都有从尝鲜者到普罗大众的过程。自动驾驶,大家也不觉得是个事儿,但是如果大家都认为是一个方向,我觉得过不了几年,大家都会用。

第二个回答细节的问题,怎么去体验它或怎么去展示它?我觉得也不用特别担心。几年前,你跟大家解释抖音的体验也非常费劲,但是你抖音滑两下。当你坐上这辆车交互两下的时候就知道,那是怎么样吸引到你的体验了。人机交互的趋势,如果回看从计算机发展以来的所有趋势,都是以从机器为中心到以人为中心来发展。最早的是打孔机,后来出了键盘,再出了GUI屏幕,现在到触屏。我相信几年以后,肯定是你怎么舒服怎么来,你想让它怎么样,它就怎么样。当你上去那一刹那的时候就知道它是什么东西了,没有那么高的解释成本。

肖枫:我再举个例子,像泊车,慢慢车就懂你了,因为你每次自己泊车的时候有些喜好,你会找什么样的车位,自动泊车的时候会主动给你选择你最喜欢的那些车位,比较宽一点,靠柱子这些,它会引导你。就像高杰总说的,后面这些服务你自然会跟着它,跟着引导也就习惯了,就慢慢进入到一种新的智能化体验里面去了。

高杰:刚才说的以人为中心。我前段时间看到一个词叫做silence technology寂静技术,就是越不打扰的,越让你舒服的东西,越是高级的。

18、现在大模型上车之后,特别是在智能驾驶方面,大家都在追求百公里多少接管次数,因为它还是人车共驾的状态,那么它怎么跳到所谓的无人驾驶的状态?它需要经过什么东西呢?因为在L2下面毕竟还是有一个冗余系统就是人嘛,但是无人的时候完全需要由机器来接管了,就是怎么跳过去?还有在辅助驾驶阶段,人车共驾怎么才是比较好的方式?比如现在说200公里接管一次,当然这个有些是安全性接管,有些是舒适性接管,如果200公里接管一次安全性的,但是人的精神有些时候会涣散的,如果到那时候,我不可能完全盯着这个车,怎么才是人车共驾理想的状态?

肖枫:接管作为一个指标,本质衡量自动驾驶的能力,但是这个接管率和普通车主开车的感受还不完全一样。实际上在L2,无论加多少个+在后面,我觉得不光是一个技术问题,更是一个责任问题。即使你claim,我能达到什么样的指标,但它后面总有一个“但是”,就是出了问题责任还是车主,他的精神就不会放松,关键就是这个。

追问:因为大家在宣传或者个人体验上,总会觉得已经很安全了,已经变成特别小概率的事件了,一些对技术比较乐观的人,他可能就放松了。

肖枫:我记得国外有一个自动驾驶老总也说过了,其实一定情况下对好的驾驶习惯是有一定的影响,就是本身一些好的习惯逐步没有了嘛,但是又真正做不到100%,这是一个博弈的点。

追问:所以我的问题就是什么是最理想的人车共驾的状态,就是在辅助驾驶的状态。

肖枫:现在人机共驾设计有一种叫confidence view,就是把智驾算法的置信度通过视觉方式给你展现出来。一会高,一会低,就是给你一个视觉的感觉,当然最后的决定还是人来做判断,如果你就是心特别大的人,那你也得承担一部分的风险,但是对于一般客户来说,比如confidence比较低一点的话,即使你还在自动驾驶,这个过程你还没有手拿着方向盘,但是已经开始警觉起来了。

这块实际上人机共驾还可以做更多的事情,比如,还可以做一些提醒,座位可以稍微抖动一点,这样你就那没那么坦然,开始有些警觉了。这个没有标准,但出了问题还是你的责任,只有到了L3以后它的责任才能真正切到车厂这边,所以每个车厂特别谨慎。所以,大家都在不断思考如何通过智能化的人机交互,把这个体验做到更好,让你在放松舒服的情况下,可以享受辅助驾驶带来的舒适性。

19、在端到端视觉大模型概念火了之后,大家有一种说法,认为以目前的技术路线可以走到L4这种状态,现有的车也能走到。那到L3和L4的时候是现有车就能做到这种体验呢?还是需要再加冗余系统?

肖枫:必然要加冗余系统,所以对车的代价也会更大。Robotaxi一直在做类似的尝试,但是它还在有限区域里面。我觉得这是一步一步的过程,也是看车主的接受程度,这是一个博弈过程。

0 阅读:0
车车东西

车车东西

感谢大家的关注