在vivo开发者大会(VDC)开幕的几个月前,vivo的研发团队在深圳福田的办公室测试了一项新功能:让手机内置的AI智能体像人一样订餐厅。
和大部分AI应用不同,研发团队设计了一个大胆的构想:用户通过文本或语音下达指令,AI可以像真实用户一样,自己打开App,搜索并选择对应的餐厅,自行拨打餐厅电话订位。整个流程在用户看来,就像有一只看不见的手在操作手机。
一旦这个设想可以实现,理论上人在手机上能完成的操作,都可以交给AI完成。
vivo的思路是从订位和点外卖这两项相对基础且高频的场景开始。在点咖啡这个功能中,AI像人一样熟练的进入了商家小程序,按照指令选择了对应的杯型,甚至识别并关闭了促销广告。
这次技术探索,在今年10月10号召开的vivo开发者大会上首次亮相。
和去年一样,两届开发者大会的主题都是“同心同行”,但内涵却有所差异。去年vivo发布了自研的蓝心大模型与蓝河操作系统,第一次将AI兵工厂中的军火集中批量展示。一年之后,vivo打算直观的向开发者与消费者解释,复杂的参数和代码带来了什么改变。
这是vivo尝试用AI重构用户体验的365天,也是他们重新理解AI的365天。
重建规则和许多被AlphaGo惊醒的公司一样,vivo对AI的大规模投入始于2017年。
周围是这项战略最主要的执行者,他在vivo工作了15年。2017年,周围受命带队vivo的人工智能研发团队,在这个团队组建前,他和其他高管走访了国内外各大高校,意识到学术界在人工智能上的探索,正在孕育产业化的想象空间。
ChatGPT出现后,vivo对生成式AI的投资更加坚决。相比新技术的开发,手机厂商更注重如何将新技术应用于终端产品,并带来更好的用户体验和附加值。ChatGPT像AlphaGo一样,直观的展现出了大模型的应用前景。
vivo的副总裁、OS产品副总裁、AI全球研究院院长周围
和研究机构不同,vivo是一家消费电子公司,周围则是硬件公司中软件团队的负责人。因此,他需要思考的不是单独的应用或研发项目,而是AI在公司战略中的定位,以及具体的执行策略。
在“过饱和投入”的原则下,vivo以大模型为中心,开始迅速补齐自身在底层技术环节的短板,代表性成果是去年VDC上一口气发布的三个参数量级,一共五款大模型。
2023年,vivo公布自研通用大模型矩阵“蓝心大模型”
然而,伴随自研大模型在各种榜单上频频刷脸,模型参数无止境的扩张,坐拥数十篇顶级期刊论文和数百项发明专利研发团队,却一度陷入迷茫。
同样的尴尬也发生在产业界,经历了如火如荼的百模大战,社会舆论对生成式AI的热情似乎迅速冷却。而身为AI落地最核心的终端载体,AI手机的革命性也许久停留在精心剪辑和渲染的演示视频。
2023年的VDC结束后,vivo的AI团队曾做了长时间的用户调研,希望搞清楚用户需要什么样的AI功能,但答案不外乎两类:一种是用户自己也说不清楚;另一种是过于超前,放在五十年后都属于科幻电影的素材。
作为团队负责人,周围带队技术攻坚的履历无可指摘,但面对难以量化极度朦胧的用户需求,他也需要反复思考。
一个关键问题是,除了少数经典的钉子户机型,市场上大部分手机,实际上都是货真价实的“AI手机”。
最典型的例子是苹果在2019年推出Deep Fusion:用户按下快门键拍照时,iPhone其实在短时间内连拍了9张照片,算法会在不到1秒的时间里,将这些照片“像素对像素”的精确叠合,最终合成一张最优质照片。
从2017年的A11处理器集成NPU(Neural network Processing Unit)模块开始,AI就迅速介入了手机中大大小小的功能服务,从翻译、修图到相册检索与推荐算法,只要不是太老的手机,基本都拥有从软件到硬件完整的AI功能。
A11处理器中首次出现了NPU
在这个背景下,如果要让AI脱离对原有功能本身的强化,而是塑造全新的改变,需要的是研发、组织和管理体系的重整。
2022年之前,vivo的研发思路是以功能性模块为基本单元,将分散在操作系统的各个功能分门别类进行开发。比如开发文档扫描、证件扫描、文字提取等功能,然后集成在相机、相册等系统功能里。第三方开发者也可以通过接口,开发各种功能性模块。
而当大模型以一种通用技术底层的形态出现,周围意识到类似“项目制”的研发策略已经难以为继,团队需要的是一个与大模型适配的“规则”,并在规则的框架下完成各种技术实现。
按照周围的说法,在没有明确应用方向的前提下,那就先给高楼打好地基,修成什么样再说。
如果说以蓝心大模型为代表的一系列底层技术是高楼的地基,那么去年VDC结束的时候,他就应该认真思考,高楼应该修成什么样了。
理解直觉,重构交互开发者大会上,周围展示了OriginOS 5新的交互方式:用户长按屏幕会唤醒AI助手,在屏幕上圈选任意的内容,AI就会开始识别选定内容。用户将圈定内容拖动,AI会根据目标应用提供下一步服务。
OriginOS 5中,AI接入拖拽交互
按压、圈选、拖放是智能机时代用户早已习惯的交互逻辑,设备会根据预先设定好的交互逻辑完成对应的操作。但多模态大模型可以通过训练理解用户各种动作背后的意图,周围的目标是基于大模型的能力,构建一种新的交互规则。
vivo的企业文化中,有一条是虚心学习其他公司的长处,苹果之类的优秀公司,一直是其内部反复研究的对象。
iPhone并不是第一个采用触摸屏的手机,但它与功能机的差别在于,后者只是将物理按键的交互逻辑原封不动的转移到了触摸屏上。而苹果基于触摸这个交互方式,重新定义了一套交互逻辑。
举例来说,带有触摸屏的功能机在执行返回操作时,只是在屏幕上添加了一个可以触摸的返回按钮,但iPhone设计了滑动返回的交互逻辑。配合其他的零部件,开发者基于全新的交互逻辑,创造了水果忍者和愤怒的小鸟。
周围把基于新技术构建的交互逻辑称为“规则”,他提炼出的关键词是“直觉”。
vivo在多年前组建了一个算法团队,试图通过算法让用户拍出来的照片更美。但“美”这个字难倒了整座办公楼的算法工程师——什么是美?
把飘渺的词汇变成可以感知的产品是消费电子公司的核心工作,vivo内部“影像认知部”的成立很大程度来源于此,这个部门专门负责定义影像的“美”,接着由算法或硬件部门把这种审美技术实现,成为消费者可以使用的功能。
在AI团队的搭建过程中,vivo遇到了类似的问题——作为负责人,周围需要把复杂的用户需求和设计蓝图高度抽象,同时要确保抽象的概念能准确指引团队的研发流程。
除了AI,周围还负责Origin OS的开发和迭代,过去几年,他对系统研发的提出的一个词语是“流畅”,这个词又可以衍生出刷新率、图层等一系列技术指标,指引团队的开发。
过去一年里,周围想了很多词来概括自己脑海中关于AI那个不太清晰的概念,比如自然、优雅等等,但他认为最贴切的是“直觉”,即“这件事应该是这样的”——手指收拢图像会缩小,手指张开页面会放大。
依照这个原则,vivo的开发团队想到了一个方向:AI可以像人一样操作手机,像人一样打开App,选择菜单和功能,而不是通过各种各样的后台接口。
让AI帮用户买咖啡,是研发团队在这个方向指引下一次大胆的探索。周围称之为“手机智能体”,相比原有功能的强化,手机智能体的核心是基于用户的习惯和意图,可以主动进行识别与操作。
在开发者大会的演讲中,周围把手机智能体和自动驾驶类比,两者的确存在相同之处。
特斯拉对纯视觉技术路线的执着固然有成本的考量,但依照马斯克频繁念叨的第一性原理,既然人类驾驶员依靠视觉就能判断距离,那么只要有足够大的训练量,算法也可以依靠摄像头作出判断,不需要雷达的辅助。
这种相似性反映也启发了vivo的思路:利用AI创造新的交互方式,但这种交互没有破坏用户原有的、早已习惯的交互逻辑。
2019年,周围曾提出了一个大胆的设想:让AI成为真正的智能助手,扮演手机和App之间的一个重要角色。这个思路与后来AGI的构想相当类似,只是在当时过于超前。
但今天,vivo离他们的目标已经非常接近了。
挖足够深的地基去年7月,《纽约时报》曾探访谷歌实验室, 完整记录了基于RT-2模型的机器人智能闪现的瞬间:
桌子上放着恐龙、鲸鱼、狮子三个塑料玩具,工程师让单臂机器人“捡起灭绝的动物”,机器人拿起了恐龙。这里的难点不是机器人的抓取动作,而是它能识别三种动物,还能理解什么是“灭绝的动物”。
基于RT-2模型的Google机器人
周围将AI带给手机最大的改变概括为“系统记忆能力”,即AI不仅能执行用户的指令,还可以理解用户的行为。在今年开发者大会现场,他举了一个与谷歌机器人类似的例子:
用户可以对AI助手说,找出去年我和小贝在北京环球影城的照片,祝他生日快乐。
核心问题在于,AI需要理解“北京”和“环球影城”的含义,并在相册中准确的识别,而不是检索手机中文件名包含“北京”和“环球影城”两个关键词的文件。同样,AI还要理解“小贝”是谁,把照片和通讯录里的号码对应起来。
OriginOS 5中,由AI完成的图像记忆
这些设想伴随多模态大模型的出现已经不是问题,但对一家手机公司来说,把论文和代码变成可以使用的功能远没有那么简单。
首当其冲的是隐私问题——模型会读取用户的隐私数据,意味着关键数据和算法无法在云端处理,继而对手机性能提出了挑战,也是vivo“蓝科技”矩阵中多个技术方案诞生的契机。
2021年,vivo与联发科达成战略级技术合作,对vivo自研影像芯片V1和联发科当时的旗舰移动处理器天玑9000测试联调,目的在于提高两者的兼容性,最大程度释放两者性能。
随后,双方的合作成为了“蓝科技”板块之一“蓝晶芯片技术栈”,研发重心也转向了以更强的算力和更低的功耗,并在软件层面提高对算力的利用效率,保证大模型在终端的正常运作。
与之对应,vivo通过蓝河操作系统,让大模型融入系统的底层设计中,实现从应用到工具链的全方位突破。
今年的开发者大会,vivo公布蓝河操作系统2
今年的开发者大会上,vivo发布了新的30亿参数蓝心端侧大模型3B,思路依然是基于30亿参数这个端侧大模型“黄金尺寸”,在确保隐私安全的前提下,保证终端的用户体验。
暂时抛开“蓝晶”、“蓝心”、“蓝河”这些传播用途的修饰,vivo呈现出的是以一种系统性的软硬件研发能力,来指引各个技术条线的研发。
何为系统性的软硬件结合?即通过软硬件的协同能力,提高产品真实的体验而非单纯的参数。
2020年之前,手机品牌的技术投资趋势,大多体现为借助零部件更新增加产品卖点。大多数品牌的研发策略都开始向体系化的创新转变。
举例来说,当相机像素堆到5000万甚至1亿以上,对于拍照体验的改善会快速递减。此时,产品开发思路将注意力转向算法,通过降低快门延迟、加快成像速度等提高拍照性能。边际递减同样出现在快充场景,品牌们不约而同掏出曾经的120W快充,反而借助软件的运行策略的优化来降低功耗。
在开发者大会上亮相的OriginOS 5、蓝河操作系统2和升级后的蓝心大模型,也是这一转变的体现。
vivo的“蓝科技”矩阵
一座5层的建筑,需要一场誓师大会和工程师们大干三个月,但一幢百层的高楼,起决定作用的是地基的深度。
2024年的开发者大会上,vivo展示了这座大厦第一层的模样。
尾声开发者大会开始前,周围曾提醒同事,团队对“手机智能体”的定位不是颠覆或革命,而是一种“探索”。
产业界喜欢把技术创新的长期主义形容为马拉松,其实不完全准确。因为马拉松有规划完整的路线和清晰明确的终点,但创新往往既无线路可寻,也没有明确的目标以供参考。
长期主义是vivo管理层很多决策的出发点,他们同时创造了一个非常vivo特色,也更贴切的词汇:埋头种因。
在无法预知终点的长跑中,大部分可量化的目标都没有意义。而大多数看似横空出世的创新,往往都是在反复的探索中,一点点描摹出来的。
全文完,感谢您的耐心阅读。
作者:李墨天
编辑:张泽一
视觉设计:疏睿
责任编辑:李墨天