戴了「Ray-BanMeta」两个月,我开始相信AI眼镜的未来

极客公园 2024-10-09 16:15:40

作者 | Li Yuan

编辑 | 郑玄

Meta 联合雷朋推出的「Ray-Ban Meta」智能眼镜(以下简称「Meta 眼镜」),可能是 2024 年最受关注的智能产品。

自去年十月发售起,Meta 眼镜已经在全球销售了超 100 万台。不过,其真实的销售潜力远不止于此——扎克伯格在许多场合提到,这款产品的需求量比预期更高,导致不少款式售罄,用户只能买到最基础的黑色款式。

Meta 眼镜的销量之高,甚至改变了扎克伯格的认知和 Meta 的战略:「一年半前你问我什么时候人们会更喜欢使用眼镜作为主力设备使用,我会说要到眼镜的显示效果足够好的时候。现在我认为可能有三种路径,其中一种就是无显示屏只具有人工智能的眼镜。」扎克伯格讲道。

Meta 眼镜为眼镜增加了摄像、耳机,和最引人注意的——AI 功能。呼唤 Hey Meta,就可以与 Meta AI 对话。除此之外,这款眼镜没有加入任何 VR、AR 等增强显示效果的技术。但消费者对这样一副没有显示增强效果的眼镜趋之若鹜。

这或许是比销量更重要的,这款产品跨时代的意义所在。即在一种全新的交互范式下,我们或许正在见证智能眼镜像无线耳机、智能手表一样,成为一个数亿乃至十亿人每天使用的超级可穿戴设备。

为了验证这个念头,笔者自费购入了一台 Meta 眼镜与它一起工作、娱乐、生活,深入使用了几个月后,对于 AI 与眼镜结合带来的可能性,以及智能眼镜的未来,笔者有了新的想法。

可以每天佩戴的智能眼镜

首先必须要明确的一点是:从今天来看,AI 只能说是 Meta 眼镜的一个添头,卖爆本身还是因为这是一款好的眼镜。

在 Meta 2023 年 9 月推出这款智能硬件之前,Meta 和雷朋曾在 2021 年 9 月推出其联名的初代产品:Ray-Ban Stories。只看产品定义,两代产品似乎变化不大:都是采用雷朋眼镜的镜框进行二次设计,为眼镜增加了摄像和音频功能。

不过初代产品,在两年的全生命周期中,只卖出了 30 万台。而 Meta 眼镜,在 2023 年 9 月推出后,一个季度就卖出了 30 万台,且销量增幅稳定,加上 2024 年的上半年,Meta 眼镜已经出货量超过 100 万台。

相比之下,2022 年,全球智能音频眼镜市场总出货量只有 343 万副,而同样主打轻便的 AR 眼镜产品,2023 年整年,全球消费级 AR 出货量为 20.5 万台。

什么让 Meta 眼镜成为变数?

笔者认为 Meta 眼镜的成功,可以总结为一句话:这是第一款可用,且有用的智能眼镜。

前面提到,过去几个月里,笔者一直将 Meta 眼镜作为主力眼镜佩戴和使用。

这是一项不寻常的成就。

作为一个对于眼镜的舒适度和美观度要求偏高的消费者,能够将 Meta 眼镜作为主力眼镜,首先意味着,Meta 雷朋智能眼镜,做到了本身是一副好戴的眼镜。

对于消费者而言,一副好戴的眼镜意味着什么?

首先是外观。从外观来看,Meta 雷朋眼镜,与一副普通的雷朋太阳镜非常相似。

Wayfarer 太阳镜,非智能款与智能款的对比

除了眼镜正面的边角装饰位置,有细微的差别,一副 Meta 眼镜,看起来与一副普通的眼镜差别很小。

美观问题见仁见智,不过 Meta 眼镜用雷朋经典的设计,尽可能地绕开了科技公司在美学上积累不足的问题。笔者曾经将 Headliner 的眼镜给编辑部不少同事进行试戴,得到了「谁戴谁好看」的评价。

这一代的 Meta 眼镜目前共推出了 Wayfarer(方框)、Headliner(圆框)、Skyler(猫眼)三种框架,每种框架有四种颜色可以选择,镜片可选墨镜、变色、偏光和防蓝光的选项,也可以买后由消费者自己去眼镜店选购适配,尽可能给了消费者足够多的选项。

其次是舒适度。Meta 眼镜,官方重量为 48 克,已经接近了消费者佩戴眼镜的舒适区。在使用 Meta 眼镜作为主流眼镜之前,笔者日常佩戴的眼镜重约 30g,不常佩戴的大框变色眼镜,则重约 40g。

Meta 眼镜也着重保留了雷朋镜框镜腿的独特设计。在镜腿越过耳朵的位置,尽可能地保持了雷朋眼镜原本的弯度和渐细的曲线,以保证佩戴的舒适。

笔者采访的供应链人士告诉笔者,为了保证这样的镜腿曲线,Meta 没有采用常见的长方形或双椭圆型扬声器,而是特意定制了异形扬声器来保持镜腿的设计感和舒适性。

在笔者实际的佩戴中,佩戴 Meta 眼镜比起佩戴普通眼镜,眼镜的存在感还是明显更强——由于重量的原因,眼镜会更频繁地滑落,舒适度比普通眼镜差一些。不过,在长时间的佩戴中,这种不适感并没有强烈到无法忽视,在最初的不适应过去之后,笔者可以完全将其视为一副偏重的眼镜,进行正常佩戴。

不过,只有像眼镜,还不足以奠定 Meta 眼镜今日的成功。Meta 与雷朋联名的初代产品,外观与今日的 Meta 眼镜几乎相同,官方重量仅多出 1.2g。

能够将 Meta 眼镜作为主力眼镜进行佩戴,更关键的因素是,Meta 眼镜给了消费者一个足够好的理由,让其心甘情愿地将 Meta 眼镜作为主力眼镜。而在这一代产品上,这一点是 Meta 的摄像和耳机功能。

在 Meta 眼镜的初代版本中,已经存在这两个功能,不过,当时这两个功能的可用性并不高。而这一代的 Meta 眼镜,则真正将这两个功能做到了「可用」甚至「好用」。

第一次戴上 Meta 眼镜,你会立刻感觉到 Meta 眼镜的不同。笔者戴上的第一反应,就是被其扬声器的音质惊艳。Meta 眼镜的音质,与音质较好的开放式耳机不相上下,听音乐也完全不觉得违和。

而视频功能,更是令人惊喜。事实上,在购买雷朋眼镜之前,笔者已经逐渐意识到有些记录生活的拍照需求,使用手机难以满足:比如在高速驾驶的情况下看到了美丽的风景、在骑马的马背上不允许携带手机的时候、在和儿童或宠物进行交流的时候等等。在这些场景下,掏出手机拍摄,并不是一个很好的解决方案。

之前的最优解是购买一个运动相机,不过随身携带运动相机,对于用户的要求仍然太高了。Meta 眼镜的出现让我看到了一种新的可能。

事实上,已经有不少视频创作者,因为这一功能成为第一代 Meta 眼镜的受众,不过第一代的 Meta 眼镜的相机只有 500 万像素,而新一代的 Meta 眼镜升级至 1200 万像素,第一次将视频/拍照功能做到可用。

在新一代的 Meta 眼镜上,只需要用右手长按镜框上的一个按钮,就可以开启摄像功能。如果不愿意用手操作,还可以选择语音操作——喊一句「Hey Meta,开始录制」。实际测试的效果来看,笔者认为已经接近几年前手机的录像水平,同时具有极强的防抖效果,最长录制时间三分钟。在高速转动的游戏设施上,Meta 眼镜能仍然保持较为出色的摄影效果。

结合五麦克风阵列的豪华收音——不少录音笔甚至不能达到五麦克风阵列的收音,戴着 Meta 眼镜回看录的视频,能够体验到沉浸式的音频体验,能够如身临其境一样,重新听到当时录视频时不同方位传来的声音。

在笔者购买 Meta 眼镜之前,曾经与几位拥有 Meta 眼镜的尝鲜者进行交流,其中促成笔者购买的主要原因之一,就是他们几位都没有将其闲置,而是真实地在生活中长时间地使用。Meta 眼镜高度可用的音视频功能,是他们愿意长时间使用最重要的原因。

其中一位用户表示,他最喜欢在健身房里一边健身一边用 Meta 眼镜听歌。而在笔者追问为什么耳机不行时?他的回答是,「因为总是有可能,突然有有趣的东西出现想要拍摄。」

这一回答在当时看起来虽然有些随意,但在经过笔者自己的使用和与多名用户交流后,发现有这个心态的不止他一个,而是 Meta 眼镜粉丝们的共识。

眼镜是近视者生活中无法离开的一个必需品,听音乐、接打电话的长期需求,再加上一个记录生活的「万一」,让 Meta 眼镜的可用性超越了其佩戴的不舒适性,牢牢戴在每一个购买者的脸上。Always on 的硬件与 AI 的化学反应

Meta 眼镜在 2024 年 4 月,加入了新的 AI 功能。

在产品刚推出时,Meta 眼镜本身也具备语音助手功能。用户可以戴上眼镜,呼唤「Hey Meta」连接特定的软件,进行简单操作,如拨打电话,调节音量或播放音乐。和现在的 Siri 作用相似,甚至更局限。

而让 Meta 眼镜正式成为目前最炙手可热的 AI 硬件的,正是这次 4 月份的更新。Meta 在对外发布 Llama 3 大模型的同时,宣布 Meta 眼镜的用户,之后再呼唤 Hey Meta 时,除了可以使用之前的功能外,将能够直接和由 Llama 3 的多模态的大模型对话。

除了最常见的问答之外,Meta AI 最亮点的能力在于可以使用语音命令「Hey Meta, look and...」,在这条命令后,Meta 眼镜会自动调用摄像头,拍下用户当前正在看的场景,调用多模态大模型的能力,回答用户的相关问题。

扎克伯格在社交媒体上亲自表演了一段。

在呼唤 Hey Meta 后,扎克伯格对眼前的建筑是什么发出了提问。而 Meta AI 则迅速分析了提问瞬间 Meta 眼镜拍下的照片,并返回一个简短的答案。

在 Meta 新的固件更新中,还增加了对多轮对话的支持——在一轮大模型的回复结束后,会自动等待一段时间,用户可以进行追问而不必再次使用 Hey Meta 作为开头。

笔者也对 Meta 眼镜的 AI 功能进行了深度体验。

首先第一个优点,是 Meta AI极低的延迟。

每次提问后,Meta AI 会有一个一秒左右的思考提示音。在大量尝试后,笔者发现,基本上所有的问题,无论是针对当前的视觉问题,还是普通的问答问题,Meta AI 基本上都能在一次提示音后给出回复。

笔者咨询了相关的产业人员,产业人员猜测,这可能源自 Meta 眼镜使用的高通 AR 1 芯片,在本地就对图片进行了简单的 token 化和预处理,才能达到这样好的效果。

而或许与极低的延迟相关,Meta AI 本身能力并不是特别强,且 Meta 似乎对 AI 的回复进行了长度限制,超过一定长度后,Meta AI 的回复就会突然停止,这导致 Meta 眼镜上的 AI 能力的另一个突出特征是:其能做的事,仍然很局限。

事实上,笔者曾经一度对于眼镜中加入大模型的合理性产生怀疑。

以眼镜 AI 最常宣传的一个功能的物体识别功能为例,受限于大模型的实际能力,和 Meta AI 本身的限制,Meta AI 在识别物体上的精确性并不高。

例如,如果问 Meta AI 房间里哪里有可以喝水的设备,Meta AI 可以指出房间中有饮水机,而要问到更精确的,如识别一下笔者购买的栀子花到底是哪种花,Meta AI 则识别了三遍才正确识别。识别一把小木棍大概有多少根,则数出来的数量与真实情况差距甚远。

在什么情况下用户会带着眼镜询问大模型哪里可以喝水呢?这样的需求几乎是完全人造的。识别花朵的需求虽然小众,但是是真实的需求,但是用户又为什么不掏出手机,在已经优化地非常好的识别植物的 app 里进行识别,而要使用不成熟的 AI,承受可能三次的错误呢?

在今年9月举行的Meta Connect大会上,Meta还为这款眼镜加入了实时 AI 翻译的功能。在现场演示中,扎克伯格讲英语,另一个人讲西班牙语,双方进行了一场对话,智能眼镜充当了翻译。在这一点上,AI的实用性似乎有所增强。不过,从效果来看,AI的翻译仍然还是有一定「时差」。

不过,当笔者真的将 Meta 眼镜作为主力眼镜,佩戴一个月之后,笔者意识到,一个 Always On 的设备+AI,产生的化学反应,可能是全新的。

眼镜,作为一个全天候架在眼前的设备,可以随时聆听我的召唤。对比呼唤手机上的「Hey Siri」,智能家居中的「你好小爱同学」,对眼镜呼唤「Hey Meta」,成本更低——无需在任何情况下考虑设备是否听的见,听得清,即使是在有杂音的地方低语,也能得到很好的回应。

改变是一点点发生的。

笔者原本使用 Siri 的主要场景,在于使用 Siri 快速放音乐,而 Meta 眼镜,作为一个几乎全天候佩戴的设备,很自然地成为了接收笔者语音指令的第一终端,也是控制音乐播放最方便的设备。Hey Meta 在这个场景下,轻而易举地就超越了 Hey Siri,成为了我的首选。

而一旦习惯呼唤 Hey Meta,一些全新的,没想过的自发需求就生长了出来。

比如,在无聊的路上,Meta AI 可以帮我念首诗,讲点新闻,玩猜数字的游戏。

比如,照镜子的时候,我会呼唤 Hey Meta,帮我看看是否是一个合适的穿搭。

没胃口的时候,也可以直接呼唤 Hey Meta,问问有没有什么可以合适夏天晚上吃的菜,有没有好的商店在我附近。

这些需求,有的 Meta AI 可以满足地很好——比如念一首诗,帮我提供夏夜适合吃的菜的灵感,而有的则暂时还做不到——比如骑行到一个陌生的地方帮我推荐一家附近的餐馆。

相比手机,眼镜有着独特的位置优势——全天候佩戴的属性,加上是在脸上距离嘴巴最近的收音入口。让笔者开始相信AI不断进步的情况下,智能眼镜有可能是比手机更适合作为 AI 载体的未来。

扎克伯格在接受采访的时候也讲到:「眼镜替代手机,很可能像手机替代电脑一样。并不是人们不再使用电脑了,而是在很多场景下,人们首先使用手机来完成,而不是电脑。」

AI 代替显示技术,让眼镜成为第一入口的未来可见了

事实上,行业认为眼镜能够成为未来最重要的智能硬件的判断由来已久。

2012 年,Google 就发布了 Google Glass 的原型机概念。Google Glass 的原型机概念是美好的:在眼镜的右上方,增加一块光机,把数字信号投入到眼睛里。Google 希望这个眼镜能够做到替代部分手机功能——显示天气、消息、电话,用户可以佩戴它进行拍照、录影、导航等等。

Google Glass 愿景虽好,但最终呈现的效果却一般。续航短、发热严重不说,最终能够代替的手机的功能非常有限,无法承载新一代智能终端的愿景。

而吸取了 Google Glass 的教训,之后的智能眼镜走向了两个流派,一是不再强调替代手机的智能性,而将其主要作为一个消费电子的硬件来对待。如主打拍照分享的前三代Snap Spectacles 眼镜和主打音频功能的 Bose 音频眼镜。

而另一个流派,则在显示技术上不断加码,将越来越多的智能功能搬到眼镜上,甚至是让眼镜的智能功能超越手机——Meta 的 Quest 头显、苹果的 Vision Pro 就是这一路线的代表。

然而优秀的显示效果的代价,往往是沉重的重量,和常常被限制在家中游戏和观影的使用场景。眼镜获得了智能的能力,但是失去了 Always On 的场景——人们最初期待眼镜能够超越手机成为第一入口,看中的就是眼镜更便携,离用户更近,如果抬眼就能调用智能功能,自然比手机更容易成为第一入口。

而 AI 技术的出现,或者将带来第三条路。在大语言模型技术出现之前,从手机、智能音箱再到 HoloLens 等 AR 眼镜也曾引入语言交互,但在当时,只使用自然语言进行交互的效果,很难称之为智能但只使用自然语言进行语音交互,几乎很难称之为智能,这意味着以语音交互为主无法支撑起一个计算平台。

而在今天,大语言模型技术的出现,让单独的语音交互的体验,有了走向足够智能的可能性。虽然今天 Meta 眼镜上的 AI 仍然停留在交互玩具的级别,但我们完全可以预期随着大模型技术的发展,拥有摄像头和 AI 的眼镜能够替代今天手机应用的不少场景——无论是点外卖、扫码支付、获得陪伴、问大语言模型商店是否具有针对性的优惠,实际上在技术上已经都不再是挑战,差的只是平台的接口尚未打通。

而 AI 技术,也可能带来很多新的智能能力,比如长期的陪伴,针对个人生活场景真正个性化的推荐等等。

另外一个不可忽视的因素:经过 10 多年的发展,智能眼镜的几项关键技术都在近些年取得了突破,这也是 Meta 眼镜取得成功,以及支撑智能眼镜在未来几年快速增长的重要因素。

几名熟悉供应链的业内人士告诉笔者,在 Google Glass 时代,使用眼镜进行拍照、甚至进行一定的 AI 功能,续航和发热是不可解的。而 Meta 眼镜独家使用高通的 AR1 芯片,使得 Meta 眼镜的续航大为提升——官方表示单次续航约四小时。实测中,如果音乐、摄像功能的使用不频繁,甚至可以支撑更久。

除此之外,蓝牙芯片、摄像头清晰度、开放式耳机的声音调教都在近些年取得了不小的进步。

事实上,Meta 最初也并没有意识到这一代的 Meta 眼镜能够在消费者层面上获取如此大的成功。上一代的 Meta 眼镜功能相似,却没有取得类似的成功。但正是硬件领域持续不断的技术积累,推动了 Meta 眼镜的可用性质的飞跃,终于突破了智能眼镜佩戴舒适度的临界红线,使其成为消费者愿意长期佩戴的设备。

硬件性能已足以支持全天候运作,软件智能已达到纯语音交互即可胜任复杂任务的水平。

AI 取代传统显示技术,使智能眼镜成为人机交互第一入口——这条颠覆性的第三路径,或许已近在咫尺。

0 阅读:18

极客公园

简介:极客公园是一个关注互联网创新的社区。