【眼观】谷歌放大招，Gemini却假给力

为了打败ChatGPT，谷歌不惜视频造假

近期，Open AI内斗闹剧纷纷扰扰，刚落下帷幕，谷歌便“趁火打劫”，发布了基于多模态的AI大模型Gemini，并以令人惊叹的演示视频，让人对“后知后觉”的谷歌刮目相看。

然而，“帅不过三秒”，Gemin便在一片质疑声中，被“啪啪”打脸。

彭博社质疑称，谷歌在演示视频中歪曲了Gemini的AI性能。另有专栏作家表示，在谷歌发布的这段视频中，Gemini似乎非常强大，但有点过于强大了。

面对外界质疑，谷歌承认“使用镜头中的静态图像帧并通过文本提示”制作，而非视频中显示的AI实时响应口头提示；并且为了宣传目的，加快了响应速度。

然而，从谷歌内部员工发布的批评文章来看，Gemini的造假可不止于此。据称，谷歌工作人员真实输入的提示词可能不是视频中的语音提问，而是一系列非常照顾Gemini理解的文本；同时，谷歌用拟人化的语音以及经过重新编辑的语音实时问答，对Gemini做出了非常明显的人格化处理。而这些都严重误导了观众。

这一结果令外界哗然，也不免使人对谷歌大模型的能力产生强烈质疑。

谷歌DeepMind研究和深度学习负责人则赶忙跳出来说：“该视频展示了使用Gemini构建的多模态用户体验是什么样子，我们这样做是为了激励开发人员。”

但事实胜于雄辩，随着中等版本的Gemini Pro开放使用，越来越多用户开始在网上发布测评感受，表达对其印象不佳的评价。

用户普遍认为，Gemini不仅错漏百出，而且似乎也很难处理基本的编程功能。这与其宣称的可以完胜GPT-3.5的言论多少有些不符。

演示视频中使用的是高级版本的Gemini Ultra，而其是否能否摆脱“造假嫌疑”，给我们带来真正的惊喜，如其宣称的可以在高中物理、专业法律和道德场景等方面击败GPT-4，等到明年发布时，答案自会见分晓。

尽管谷歌Gemini有夸大宣传的嫌疑，但从中我们也能看到未来大模型的进阶方向，并对“原生多模态”的技术路径产生更多期待。

不同于当下很多模型通过训练单独的模块，然后将它们拼接在一起，来构成近似的“多模态”，以Gemini为代表的“原生多模态”则选择一开始就把多种形式的数据放在一起训练，并使用同一个模型完成不同模态的内容输出。

简单类比的话，前者可以看做是先各自学习物理、化学、生物等学科知识，然后通过各科考试，把结果汇总成理综考试成绩；而后者则是一开始就学习理综课程知识，然后直接参加理综考试。两者看似结果一样，但结构和原理却大相径庭。

《连线》杂志评价称：“Gemini开启了一个新时代，超越了主要以文本为基础的大语言模型，这可能为新一轮人工智能产品奠定基础，这些产品与ChatGPT所支持的产品截然不同。”

Gemini的视频演示虽然是“赝品”，但无疑让很多人一边兴奋不已，一边忧心忡忡。

兴奋的是，AI大模型有望再上新台阶，较我们预想的发展的更快，走得也更远；而忧的则是，这或许意味着AI大模型的“智力”正在飞速迭代，距离奇变时刻似乎愈来愈近。

就本次Gemini“乌龙”事件来看，谷歌似乎没有捞到什么好处，反而“惹了一身骚”，但实质来看，谷歌却收获满满。

首先在舆论层面，谷歌的风头便瞬间盖过了Open AI，Gemini可谓一战成名，家喻户晓，引得万众瞩目；其次，在产品层面，这一波宣传为也为谷歌Gemini带来了巨大流量，而用户数的增加和互动，将对Gemini的迭代和发展提供巨大数据支撑和宝贵经验，用户体验调优，使得Gemini真正超越GPT-3.5，甚至达到GPT-4的服务水平，也指日可待。

此外，除了在Gemini宣传视频中的“投机取巧”，谷歌还有自己“鸡贼”的一面，即视频演示中的高级版本Gemini Ultra不会很快到来。而这便为其后续迭代和持续优化，留出了较为充裕的时间。假如再给谷歌半年时间，实现视频中流畅的即问即答效果也不是不可能。到时再看当下的“夸大”视频，很多人恐怕要说谷歌有“先见之明”了。

结语：

宣传夸大和营销造假的例子岂止谷歌一家，马斯克也曾在特斯拉自动驾驶和智能机器人的宣传上玩过这一套。不过，造假虽容易，可一旦翻车，遭到的舆论反噬则可能引火烧身，得不偿失。而如谷歌这样高调造假的例子，无疑是一场铤而走险的赌博游戏。

谷歌的大模型落后于Open AI已是不争的事实，两家公司的基因不同，谷歌靠搜索起价，如今依然仰仗搜索这个现金牛业务，可以说包袱很重。而Open AI则属于轻装上阵，没有后顾之忧。

目前，在AI大模型领域，Open AI一骑绝尘；作为后来者，谷歌想要后来居上似乎不太容易。不过AI行业风云变幻，这不，微软的小模型Phi-2也来了，其表现也可圈可点，在部分基准测试中甚至超过谷歌的Gemini Nano 2。

由此来看，自称是“原生多模态”的Gemini也不是没有反超ChatGPT的可能。