为了打败ChatGPT,谷歌不惜视频造假
近期,Open AI内斗闹剧纷纷扰扰,刚落下帷幕,谷歌便“趁火打劫”,发布了基于多模态的AI大模型Gemini,并以令人惊叹的演示视频,让人对“后知后觉”的谷歌刮目相看。
然而,“帅不过三秒”,Gemin便在一片质疑声中,被“啪啪”打脸。
彭博社质疑称,谷歌在演示视频中歪曲了Gemini的AI性能。另有专栏作家表示,在谷歌发布的这段视频中,Gemini似乎非常强大,但有点过于强大了。
面对外界质疑,谷歌承认“使用镜头中的静态图像帧并通过文本提示”制作,而非视频中显示的AI实时响应口头提示;并且为了宣传目的,加快了响应速度。
然而,从谷歌内部员工发布的批评文章来看,Gemini的造假可不止于此。据称,谷歌工作人员真实输入的提示词可能不是视频中的语音提问,而是一系列非常照顾Gemini理解的文本;同时,谷歌用拟人化的语音以及经过重新编辑的语音实时问答,对Gemini做出了非常明显的人格化处理。而这些都严重误导了观众。
这一结果令外界哗然,也不免使人对谷歌大模型的能力产生强烈质疑。
谷歌DeepMind研究和深度学习负责人则赶忙跳出来说:“该视频展示了使用Gemini构建的多模态用户体验是什么样子,我们这样做是为了激励开发人员。”
但事实胜于雄辩,随着中等版本的Gemini Pro开放使用,越来越多用户开始在网上发布测评感受,表达对其印象不佳的评价。
用户普遍认为,Gemini不仅错漏百出,而且似乎也很难处理基本的编程功能。这与其宣称的可以完胜GPT-3.5的言论多少有些不符。
演示视频中使用的是高级版本的Gemini Ultra,而其是否能否摆脱“造假嫌疑”,给我们带来真正的惊喜,如其宣称的可以在高中物理、专业法律和道德场景等方面击败GPT-4,等到明年发布时,答案自会见分晓。
尽管谷歌Gemini有夸大宣传的嫌疑,但从中我们也能看到未来大模型的进阶方向,并对“原生多模态”的技术路径产生更多期待。
不同于当下很多模型通过训练单独的模块,然后将它们拼接在一起,来构成近似的“多模态”,以Gemini为代表的“原生多模态”则选择一开始就把多种形式的数据放在一起训练,并使用同一个模型完成不同模态的内容输出。
简单类比的话,前者可以看做是先各自学习物理、化学、生物等学科知识,然后通过各科考试,把结果汇总成理综考试成绩;而后者则是一开始就学习理综课程知识,然后直接参加理综考试。两者看似结果一样,但结构和原理却大相径庭。
《连线》杂志评价称:“Gemini开启了一个新时代,超越了主要以文本为基础的大语言模型,这可能为新一轮人工智能产品奠定基础,这些产品与ChatGPT所支持的产品截然不同。”
Gemini的视频演示虽然是“赝品”,但无疑让很多人一边兴奋不已,一边忧心忡忡。
兴奋的是,AI大模型有望再上新台阶,较我们预想的发展的更快,走得也更远;而忧的则是,这或许意味着AI大模型的“智力”正在飞速迭代,距离奇变时刻似乎愈来愈近。
就本次Gemini“乌龙”事件来看,谷歌似乎没有捞到什么好处,反而“惹了一身骚”,但实质来看,谷歌却收获满满。
首先在舆论层面,谷歌的风头便瞬间盖过了Open AI,Gemini可谓一战成名,家喻户晓,引得万众瞩目;其次,在产品层面,这一波宣传为也为谷歌Gemini带来了巨大流量,而用户数的增加和互动,将对Gemini的迭代和发展提供巨大数据支撑和宝贵经验,用户体验调优,使得Gemini真正超越GPT-3.5,甚至达到GPT-4的服务水平,也指日可待。
此外,除了在Gemini宣传视频中的“投机取巧”,谷歌还有自己“鸡贼”的一面,即视频演示中的高级版本Gemini Ultra不会很快到来。而这便为其后续迭代和持续优化,留出了较为充裕的时间。假如再给谷歌半年时间,实现视频中流畅的即问即答效果也不是不可能。到时再看当下的“夸大”视频,很多人恐怕要说谷歌有“先见之明”了。
结语:宣传夸大和营销造假的例子岂止谷歌一家,马斯克也曾在特斯拉自动驾驶和智能机器人的宣传上玩过这一套。不过,造假虽容易,可一旦翻车,遭到的舆论反噬则可能引火烧身,得不偿失。而如谷歌这样高调造假的例子,无疑是一场铤而走险的赌博游戏。
谷歌的大模型落后于Open AI已是不争的事实,两家公司的基因不同,谷歌靠搜索起价,如今依然仰仗搜索这个现金牛业务,可以说包袱很重。而Open AI则属于轻装上阵,没有后顾之忧。
目前,在AI大模型领域,Open AI一骑绝尘;作为后来者,谷歌想要后来居上似乎不太容易。不过AI行业风云变幻,这不,微软的小模型Phi-2也来了,其表现也可圈可点,在部分基准测试中甚至超过谷歌的Gemini Nano 2。
由此来看,自称是“原生多模态”的Gemini也不是没有反超ChatGPT的可能。