文 | 佘宗明
Sora+苹果头显VisionPro+脑机接口=?
这注定是个没有标准答案的问题。
在e/acc(有效加速主义)思维中,答案也许是“颠覆”“革命”“iPhone时刻”等大词不够用,“未来已来”的既视感愈发强烈。
在EA(有效利他主义)视角里,这可能意味着风险连着风险:深度伪造、后真相,意念失控、脑波异样……
担心“被AI替代”、热议“××行业已死”,成了Sora在舆论场激起的链式反应。震惊体和重磅发布体标题堆砌,则成了自媒体蹭热点的标准姿势。
在网上,还有些YY达人用脑补那些难以描述画面的方式,代偿着《完蛋!我被美女包围了》玩完后的意犹未尽:戴上VR眼镜,就能观看由自己意念发出的Prompt(提示词)生成的小视频,男主角是自己,女主角是刘亦菲杨幂刘诗诗热巴……
虽然打开方式各异,但现实中,大多数人终究是承认“二向箔原产地供应商”OpenAI的优秀的:去年初ChatGPT爆火带来的AI大模型热余温犹在,今年初文生视频大模型Sora又将AIGC推向新里程碑,怎一个“了得”二字了得?
饶是如此,仍有不少人对“开年王炸中的王炸”Sora翻起了白眼——他们手里拿着“DAO”“DeFi”“NFT”“Crypto”的概念合订本,准备在上面再加个“Sora”。
每场技术变革,都是在被质疑中扩散开来的,“泡沫论”几乎是每个风口都挥不去的阴影。
只不过,对Sora的质疑里,还掺杂了更为复杂的情绪配方。这类情绪配方,跟“大国技术差距”的对照关联,也被民族情绪托起的某种力场强化。
这番景象,让惯于自己打倒自己的胡锡进都有些坐不住。
在ChatGPT刚问世时,面对“胡锡进要被替代”的调侃,他还能调侃着回应“老胡不依附任何时髦的东西”。
到了Sora问世时,面对Sora“不代表什么”的论调,他怒斥这是“睁着眼睛硬说”“太不负责任”“给广大网民们灌迷魂汤”,还感慨:最可怕的是我们不敢面对问题,在一切都OK甚至很好的自我安慰和陶醉中,变得麻木。
挺耐人寻味的。
01
尽管总有“新工业革命”之类的强冲击字眼蹦出来提醒人们:AI时代大幕已启,人类离通用人工智能(AGI)又更近一步,ChatGPT和Sora面世都是标志性节点……可总有些从新卢德主义余烬里窜出的“看空”话语,跟“看多”声量形成对冲。
在盛产奇观的简中舆论场,把Sora看成“又一个Web3”“下一个元宇宙”的贬抑话语含量更是超标。很多人绣口一吐,就是一个“炒作,接着炒作”。
Sora明明凭着具备超长生成时间(60s)、单视频多角度镜头、细节高度仿真、理解物理世界等优势,实现了对同行的降维打击,引得Runway、Pika Labs、Stable Video几大竞品都俯首称臣。
可他们却微微一笑:无他,大力出奇迹尔。
Sora本是依托两项核心技术突破的突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(扩散型 Transformer)架构。
可他们却摆了摆手:这些技术又不新,全靠咱们谢赛宁。
你还想说些什么,他们甩出一堆翻车神图:椅子漂浮、反向跑步、玻璃杯诡异碎裂……然后满脸不屑地说:Sora也就比人工智障多走了几步而已,它能用多个1分钟视频“拼”成长达2小时的电影吗?不能。能表现影视剧中复杂的人物内心活动吗?不能。能生成三维化的虚拟世界让人在里面嗨吗?不能。
很显然,Sora没有让“现实不存在了”,毕竟现实中的杠精依旧在。
02
Sora当然没有免于质疑的豁免权。
Sora引爆科技圈后,满屏盛赞的同时就有许多质疑声冒出来。
点赞的人很多。
马斯克在X平台(原推特)上感慨:“GG Humans”“被人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。”之后又不无遗憾地透露:特斯拉早在1年前就掌握了类似OpenAI的视频生成技术,它的真实世界模拟和视频生成是全世界最好的,只是这些训练数据来自汽车,所以生成的视频不是很有趣。
在OpenAI推出Sora的当天(2月16日)宣布Stable Video Diffusion更新1.1版本后又删除动态的AI视频生成初创公司Stability AICEO埃马德·莫斯塔克在X平台上感叹:“奥特曼(OpenAI创始人兼CEO)真是个魔术师”,并称Sora可以被视为AI视频的GPT-3。
Runway的CEO克里斯托瓦尔在X平台上发了句“Game On(比赛开始了)”。
Pika创始人郭文景表示:“我们觉得这是个很振奋人心的消息,我们已经在筹备,将直接对标Sora。”
英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为,Sora代表了文本生成视频的 GPT-3 时刻。他断言,“Sora 是个数据驱动的物理引擎……是个可学习的模拟器或世界模型”。
被誉为“最懂DiT架构科学家”的谢赛宁说:Sora将改写整个视频生成领域。
360集团创始人周鸿祎更是据此预言,“AGI实现将从10年缩短到1年”。
质疑者也不乏其人。
Open AI自称Sora是“世界模拟器”,可很多大神级科学家不答应。
图灵奖得主、Facebook首席AI科学家杨立昆(Yann LeCun)怒斥,Sora不能理解物理世界。他还顺势安利了Meta前几天推出的AI视频模型 V-JEPA联合嵌入预测架构的优越性。
前谷歌、Facebook技术主管Hongcheng也表示:“AI模型不大可能通过被动看训练数据视频,就能掌握物理定律。”再聪明的智能体,也不大可能通过看太阳东升西落的视频,就能悟出地球围着太阳转。
谷歌AI研究员、Keras之父弗朗索瓦·肖莱分析,从Sora生成的部分视频看,它是依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。在他看来,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的,因为现实世界的复杂性和多样性不是AI模型能够通过有限数据就全部学习到的。
围绕Sora到底是不是物理引擎、世界模型的争论,估计一时半会无法止息。
03
Sora免不了被质疑,但质疑跟质疑也有区别。
人家争论火箭推进器燃料用C2H4、N2H4、高级硼硅烷哪个好,终归是科学范畴的讨论,你在旁边嚷着“得烧柴,最好是烧煤,煤还得精选,水洗煤不行”,就多少有些民科了。
目前看,网上已经冒出了很多大聪明,就在用“精选煤思维”看Sora。
秉持“蒸汽机不就是个活塞吗”的简化逻辑,他们一眼看穿了Sora的“本质”:不就是大力出奇迹吗?
还有人顺带着抛出一张图——“Web3.0,颠覆了时代;Houseclub,颠覆了时代;GoogleGlass,颠覆了时代;元宇宙,颠覆了时代……回头一看,时代还是原样”,硬生生将Sora问世的意义拉低到“造词游戏”的维度。
左一个“纯属彻头彻尾的炒作”,又一个“一惊一乍没出息”,他们就差来上一句“不过是奇技淫巧尔”了。
Sora的惊艳场面,他们选择性无视;Sora的翻车画面,他们拿着放大镜看。
也不奇怪:用前现代思维理解现代技术的人,是难有从明天看今天的“明天观”的,你跟他们说Sora可以像ChatGPT向GPT-4非线性跨越那样快速进化,形同于鸡同鸭讲。
通用人工智能时代的大门都已经叩开了,他们却站在门外不入,还哼着“全都是泡沫,只一刹的花火”。
跟他们说“中美科技差距又……”,更是碰到了他们的逆鳞。
事实上,在Sora问世后,“大国科技差距”的问题总是无法回避。
在ChatGPT引爆大模型军备竞赛后,中国出现了百模大战,不少国内大模型厂商都声称多项能力已经赶超ChatGPT。但OpenAI掏出“秘密武器”Sora,又让许多人认清了现实。
周鸿祎就分析,这样看来,中美间的AI差距还在扩大。
也有人认为,差距有是有,但没那么大。
如昆仑万维CEO方汉就认为,“国内厂商和国外厂商在文生视频的差距,不像大模型领域的差距那么大。”从技术上看,Sora领先国内同行大概半年。
差距是大是小,固然言人人殊,但首先得正视差距的存在。
现在的问题是,有些人习惯了错把“顺差”当“逆差”的思维意识中,对自媒体三天两头渲染的“光刻机大突破!”深信不疑,对“领跑-跟跑”角色锚定的差距却视而不见。
华大基因CEO尹烨这两天就撰文说:
如果把人类已经存在的语言、图像、音频、视频等这些资料库看成是人类文明的金矿,但是你已经有挖掘机了,我却被限制只能用铁锹,长此以往会是什么样的结果?
我们在芯片的问题上,可能犯了刻舟求剑的错误。比如总有一种声音,认为我们能够突破14纳米,甚至认为如果我们能追赶到7纳米,我们就会赢,但这个前提是我们的竞争对手就不进步了,就在原地等着。我并不是说,你追赶到14纳米、7纳米不重要,而是你要明白,竞争对手会在同样的时间,实现3纳米、2纳米,甚至1纳米。
我们可以在战略上藐视,但不能不在战术上重视……当下据不完全统计,国内号称有大模型的公司,已经有300多家,相信大部分还是“多小散乱”,面对GPT在简体中文的世界里,似乎尚能一战,但面对Sora的横空出世,可有一个能打的,甚至是接近的吗?
说到底,缩短差距的前提,永远是正视差距。
04
胡锡进之所以驳斥那些对准Sora的“奇技淫巧论”,究其原因大概就在于,诸如此类的颇具误导性。
把ChatGPT或Sora的深远影响降维,以维持“科技赶超”想象,只会是自我麻痹。到头来,面对技术革命轻易转过身去,没准是跟正在到来的AI时代擦肩而过。
要知道,AI时代的技术演化不是匍匐向前的,而是跳跃式的——经常从一个断层跃上另一个断层。
眼下我们就已进入科技发展的“最后7分钟(施拉姆语)”时刻。越是这时候,我们越不能搞“颅内闭关”。
就在过去1个月,全球科技圈发生了很多事:
1,英伟达(Nvidia)前不久发布了在本地运行的名为“Chat with RTX”的Demo版个性化AI聊天机器人。高性能AI处理器的加持,会加速AI+N类终端浪潮的到来。
2,2月16日,谷歌发布Gemini1.5,上下文窗口长度扩展到100万个tokens(GPT4-turbe12.8万tokens),是目前最大的上下文窗口,Gemini1.5pro能一次处理1小时的视频、11小时音频、超3万行的代码库、超70万字的代码库。说出来的是“最大”,没说出来的是“完爆GPT-4”。
3,2月17日,Meta推出了名为“V-JEPA”的视频预测模型。在此之前,Meta还推出了AI视频模型Fairy。看得出来,杨立昆对Sora100个不服。
4,差不多1个月前,奥特曼的7万亿美元造芯计划被曝出,旨在对标英伟达。从算力集群到芯片制造,奥特曼下了一盘很大的棋。
5,春节前,阿里巴巴发布了通义千问大模型Qwen-1.5版本,涵盖了6个不同参数规模的型号。节后伊始,OPPO、魅族都宣布,停止传统智能手机研发,资源向AI手机集中。
毫无疑问,Sora的出现,也是大时代的注脚。
在此语境中,我们对Sora价值的认知镜框,该是AI时代的背景框,而不是预设立场的思维框架。
2月19日,“天才少年”谢赛宁在朋友圈辟谣“谢赛宁是Sora发明者”之余,就抛出了一个问题:(大家)在问Sora为什么没出现在中国的同时,可能也得问问,假设真的出现了(可能很快),我们有没有准备好?
目前看,答案一目了然:很多人都没做好准备。
“没做好准备”体现在很多方面。
比如,在硅碳融合的重要关口,在浪潮已来的关键节点,有些人依旧是拿着前现代的眼光看现代技术变革,依然是用狭隘思维看技术浪潮。
又如,AI产业发展需要依托于创新友好型生态和氛围。拿AI视频模型来说,它要拼工程化调参能力、拼算力,更要拼创新生态与创新土壤。唯有宽松包容的环境,才能更好地激发企业与人才创新的强劲活力、创造的内生动力。揆诸现实,如果说,缺芯是外部掣肘,那摆在企业面前的内部掣肘也不少。
科技观察者王兆洋就假设:OpenAI不是transformer模型发明者,Stable Diffusion不是diffusion模型发明者,如果它们诞生在中国,会不会也躲不过被骂“套壳”的命运?看到这,雷军兴许会湿了眼眶。
厄休拉·M. 富兰克林在《技术的真相》里说:“技术的发展和运用从一个社会结构中产生,然后被嫁接在这个结构之上。”
她认为,“尺寸是生长的自然结果,但生长本身是不能被强取的,它只能通过提供一种适宜的环境而得到培育和鼓励。生长是发生性的,不是制造出来的。”
某种程度上,“我们为Sora的到来准备好了吗”的孪生命题是:我们为“Sora”的培育提供了适宜的社会结构了吗?
05
Sora没有说自己“遥遥领先”,但毋庸讳言,就眼下看,它配得上一句“遥遥领先”。
而弥补差距,靠的自然不是“人家OpenAI的Sora一路狂飙,我们199元的Sora名(割)师(韭菜)课铺天盖地”,而是做真正该做的事。
在Sora问世后,有人写道:这意味着,未来的美国将更加美国,未来的中国将更加中国。
这句话的指向有很多,但最不该有的一个,是“差距Bigger Than Bigger”。