Jim Fan 对Sora的点评:
如果真有某个超越我们认知的存在编写了构成我们现实世界的模拟程序代码,我们甚至可以尝试估算这个程序编译后的二进制文件大小。以Meta AI开发的Emu Video为例,它拥有60亿参数。假如说有一个名为Sora的系统,其规模是Emu Video的10倍,并采用了bfloat16格式,那么这位“创造者”的程序大小可能不会超过111Gb。
但这里有几点需要注意:
- 实际上,这样的代码可能比我们设想的Sora系统要简单得多,因为Sora离达到Kolmogorov复杂度(一种衡量对象信息量的方法,代表了最短的无损压缩数据长度)还有很长的路要走;
- Sora系统的设计不仅仅是为了模拟我们所知的世界,而是能够包含所有可能存在的世界。换句话说,我们所经历的现实只是Sora能够模拟出的众多可能性之一;
- 就像在游戏设计中,使用虚幻引擎5(Unreal Engine 5)创建逼真场景时不需要渲染出每一个细节,我们的物理世界也可能在我们未观察它之前的某些部分实际上是不存在的。
来自某研究员的解读:
1)效果:远超所有此前文生视频方案,几乎实现了两个代际的提升,接近消费者/工业生产需要。60S的内容长度远超此前文生视频的10S长度,达到了短视频的爆款长度;极度稳定的镜头;模型不仅理解用户在提示中要求的内容,还理解这些东西在物理世界中的存在方式,实现不少物理交互(不仅可以生成完整流畅的走路和划船,甚至可以生成非常真实的猫踩睡觉的人,船在波涛里旋转的接近物理世界镜头),其它握手拥抱这些还不太行。2)能力提升根源:白皮书还没发,OpenAI认为Sora作为Diffusion模型能力提升的很大来自于,更多的视频(甚至可能有3D)作为训练集、准确深入的语言理解能力、世界构造能力。从研究人员来看,真正研发Sora的人员仅有三人,其它均为支持性工作,我觉得大幅提升可能主要来自于三方面:
Diffusion-Transformer架构
可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集
大语言模型的能力提升(OpenAI说了正在教AI理解和模拟运动中的物理世界,目标是训练能帮助人们解决需要真实世界交互的问题的模型)
3)目前商业化进度:OpenAI尚未公开开放Sora权限,表示Sora目前仅为研究项目的开始,CEO Altman在Twitter邀请留言生成视频展示能力,并表示OpenAI已经在和安全测试机构、电影和视频创作者合作,以改进产品。我觉得6个月内就会商业化和GA。4)未来市场展望:2千亿美金的短视频市场、3D、游戏、商业拍摄、特效、IP转化等内容创作工作流,都有望被颠覆,可以增强用户体验、极大降低用户使用壁垒、极大降低创作成本、并极大拓展创作者能力边界。看到了下一个亿级用户超级应用的雏形。
转,连续参加的几个小会,也都有谈及Sora。从长期跟踪的角度来看,首先是迭代太快。现在GPT5还没有拿出来(赋能记忆力中),Sora先出来了,合理推测是类似量级的产品,未来3-6个月,还能看到更多。
其次是,对于咱们来说,这种大力出奇迹的模式跑通之后,硅谷会进入更为狂热的算力军备。从吹风来看,奥特曼那个7万亿刀,哪怕落实10%也是23年整个AI投入的两倍。现在英伟达也准备砸钱,软硬、英特尔等等都在准备跟进。如果大家都这么玩大力出奇迹,那么相形之下,咱们的算力短板更大,不是没有钱,是有钱买不到算力。
不少人短视地认为Sora只是变革了电影传媒,不足为惧。不是啊,是虚拟和现实的边界没有了啊。是gatner曲线已经跑出来了啊。昨天有个做工业设计的哥们说,他管的60多号人,盘了一遍,商用到位的话,三分之一至少,会丢饭碗。
纪要来源:【文八股调研】小程序
随便投射到生活里,你教育你儿子,说你不好好学习,将来去捡瓶子。你儿子就能看到他30岁在捡瓶子。你做舔狗说,今天我们去环球坐过山车啊,去国贸买东西,去北京亮看夜景啊,她就能看到。你告诉我,这只是电影业的问题?
所言即所见,这难道不是人类所有文明都巫蛊过的箴言能力?
关键的关键是迭代快,迭代快的基础上,还都去玩大力出奇迹。然后咱拿着钱,还弄不到卡。这代弄不到,存货多少有点,凑合能追到3.5。但下一代的卡呢?
马斯克也紧张,他说他FSD有很多数据,搞Sora这种功能也是可以的。这确实没错,从数据的角度,你播放一条驾驶数据,就是100公里的沿途建模,而且是真实场景。有楼有路有车有人有红绿灯。当然,很可惜,他只有视觉和毫米波,如果能加个激光雷达,那么这些数据投喂的效果,会更好。AI会更容易物理认知。
这个数据,咱们的车企也有的,但问题还是,马斯克不仅买芯片,还自己搞。XAI即使短时间跟不上openAI,但起码具备保持代差的能力。咱们的车企不说只是车企没太强的融资能力,即使圈来钱,也搞不到算力。车企这时候如果和大厂合作,会好一点,起码大厂有钱,手里还能挤出一些算力。
和炒股没啥关系,这波没啥可以映射的。你去冲传媒,其实也犯嘀咕,会不会其实是利空。你去冲光模块啥的,也怕别人倒给你。所以和炒股没关系。只是焦虑,焦虑算力底座的确实导致了咱们人再聪明,也少了大力出奇迹的对等基础条件。
这两天聊这个聊得比较多,真的和炒股无关,不值当为了一天行情总聊的。
就是焦虑,深刻感受到了当年先辈用算盘敲原子弹的那种感受。好不容易钻完工业生产能力的老鼠洞,钻出来了,以为前面没有老鼠洞了。嘿,又一个。没啥好办法了,先进制程差十年,AI原来不差,现在被拉开了3年左右。后续能否保持在5年的整体水差?不知道,但只能继续钻了,也没啥好办法,但求钻快点。
纪要来源:【文八股调研】小程序