
英伟达Cosmos世界模型
朋友们,今天咱们来聊聊英伟达最近搞的大动作——Cosmos世界模型。这可不是什么科幻片里的概念,而是老黄(英伟达CEO黄仁勋)亲自站台,要给物理世界的AI系统“开外挂”的黑科技!这玩意儿,简单说就是个AI造梦机,给机器人、自动驾驶汽车这些“实干派”AI,制造真实感爆棚的训练数据。这下,AI们要开始“内卷”起来,卷到你家,安排上机器人管家指日可待!
Cosmos:AI的“元宇宙”工厂,量产“真实”数据这次英伟达一次性放出了八个Cosmos模型!参数量从4B到14B不等,用2000万小时的视频数据训练出来的,这手笔也太大了!这些模型,就像是AI领域的“元宇宙”工厂,专门生产各种照片级真实的、基于物理的合成数据。它能干啥?就说机器人吧,训练它搬东西,要不然就得让它真的搬,要不然就得让它在虚拟世界里搬,而Cosmos呢,能给你模拟出各种各样的真实场景,让机器人练得更像模像样。 这下,再也不用担心数据不够用了,AI直接在模拟世界里“疯狂”练习!而且Cosmos还很牛,生成视频的方式可以文本生成视频,还能文本加视频生成视频,这不就是“你出个想法,我给你造个世界”吗?

论文
三种规格,自由选择,总有一款适合你Cosmos还贴心地分了三种规格:Nano、Super、Ultra,感觉就像是买衣服,总有一款适合你。黄仁勋在CES上就说了,机器人技术的“ChatGPT时刻”要来了。 可不是嘛,之前训练模型,得有专业的知识和资源,把很多开发者都挡在门外了。 现在英伟达直接把Cosmos开源了,就是为了让物理AI能像ChatGPT一样普及,让每个开发者都能拥有通用机器人技术。 这感觉就像英伟达开了一家“AI培训班”,让全人类都来学做AI,这个野心,我给满分!

三种规格,自由选择,总有一款适合你
WFM工作原理:预训练+后训练,打造专属AI英伟达还公布了Cosmos的技术报告,里面详细介绍了世界基础模型(WFM)的工作原理。 这个WFM可不简单,它有四大功能模块:扩散模型、自回归模型、视频分词器,还有视频处理与编辑流程。研究人员还提出了一个“预训练+后训练”的范式。 先用大规模的视频数据集训练出一个通用的WFM,让它“见过世面”;然后再用特定的数据对它进行微调,让它“专精一项”,就像是大学先通识教育,再学细分专业一样。 这策略,真是兼顾了“广博”与“专精”,给物理AI系统带来了一种高效的方法。

WFM是怎么预测未来的呢? 简单来说,它会分析过去的视觉观测,再加上当前的扰动,来预测未来的视觉观测,有点像AI界的“先知”。 举个例子,你给一个机器人看了它之前的操作视频,然后又告诉它现在需要执行什么动作,它就能预测出下一步会发生什么。 这能力,简直是为机器人量身打造的!而且,WFM的扰动形式非常多样,可以是机器人的动作,可以是随机扰动,还可以是描述扰动的文字。 比如说,你告诉机器人“把杯子递给我”,它不仅理解了你的指令,还能预测到在递杯子过程中可能会发生什么。

为了训练出高上限的WFM,英伟达还开发了一个基于Ray框架的视频数据处理流程。 这个流程就像是个“数据挖掘机”,从2000万小时的原始视频里,挑选出高质量的内容。 像是分割、过滤、标注、去重、分片,这些步骤一步都不能少,还得专门优化,最终提取出了大概1亿个视频片段,片段长度从2秒到60秒不等。 这些视频数据涵盖了各种物理AI应用,像是自然动态、空间意识、手部动作、驾驶、人体动作……应有尽有。 这就好像给“AI老师”准备了满满一书包的教材,想学啥都有!而且,英伟达还用了GPU上的H.264视频编码器和解码器来加速处理,能高效处理这些海量的视频数据,不愧是显卡大厂!

研究人员还使用了两种不同的方法来构建WFM,就像武林门派一样,各有所长。 一种是基于transformer的扩散模型,它通过逐步去除噪声来生成视频;另一种是自回归模型,它则按照顺序一段段地生成视频。 这两种模型都各有所长,都能把复杂的视频生成问题分解成更容易解决的子问题。 而且,无论是扩散模型还是自回归模型,视频都是用token来表示的,只不过,扩散用连续token,自回归用离散 token,这就像是“文科生”和“理科生”的表达方式,表达的都是同一个意思。

视频的token化过程非常复杂,为了压缩视频,却最大限度地保留信息,英伟达还研发了一款Cosmos分词器。 这分词器可厉害了,它采用轻量化、高效的架构,把时间顺序也考虑进去了,不愧是显卡大厂,细节把握的真到位! 这Cosmos分词器不仅质量高,速度快,还能在单块显卡上处理8秒1080p或10秒720p的视频,这性能,简直是“开挂”了! 这Cosmos分词器就像是一个“视频压缩大师”,不仅能给视频“瘦身”,还能保证视频的“身材”不变形。
后训练:让WFM各显神通做完预训练后,研究人员还会针对具体的需求进行微调。 比如,以相机姿态作为输入,就能创建一个可导航的虚拟世界,用户可以随便移动视角来探索。 还可以把WFM用在机器人任务中,让机器人预测未来的状态。 研究人员还创建了名为Cosmos-1X的数据集,包含了机器人第一视角的视频,记录了各种机器人的日常操作,像是导航、折叠衣物、清洁桌面,啥都干。 他们还使用了一个名为Bridge的公开数据集,包含了机器人手臂在厨房干活的视频。 这微调就相当于“私人订制”,让WFM能够针对不同的任务,发挥出最大的潜力!
自动驾驶:也能用上多视角世界模型自动驾驶领域,也能用上WFM。 英伟达用自己内部的驾驶平台录制了360万个20秒的环视视频片段,创建了一个名为RDS数据集,并基于此训练了一个多视角世界模型。 这让自动驾驶系统能更好地理解周围环境,预测其他车辆和行人的行为。 未来,也许真的可以实现“无人驾驶”,你只管躺在车里睡觉就行了!
安全防护:AI发展中不可忽视的环节因为英伟达开发WFM的目的是给物理AI系统用的,为了保护开发者,他们还开发了一个保护系统。 包括阻止有害输入的前置防护系统,还有阻止有害输出的后置防护系统, 这就像是给AI加了一道“安全锁”,防止它被坏人利用,也防止它产生不好的影响。 这安全意识,还是值得点赞的!
未来已来:你将会拥有一个“无所不能”的机器人管家总之,英伟达的Cosmos世界模型,就像是一个虚拟的“造物主”,能模拟物理世界的一切。 它不仅可以帮你想象各种场景,还能帮你做决策。 而且,WFM还能通过生成数据来增强训练过程,省时省力。 构建世界模型的数据需要海量数据,成本非常高,而WFM可以生成合成数据,来给AI训练“充能”。 物理测试的风险也很大,而有了WFM模拟的3D环境,AI就能在安全的虚拟世界里训练。 未来,也许真会像老黄说的那样,每个人都应该有三台“计算机”:用来训练 AI 的 DGX、用来部署 AI 的 AGX,还有一台用来生成虚拟世界的 Omniverse+Cosmos。 或许每一个工厂都将用上数字孪生,通过Omniverse和Cosmos生成一大批未来场景。

未来已来:你将会拥有一个“无所不能”的机器人管家
所以,这次英伟达的Cosmos世界模型,真的为物理AI的发展按下了加速键。这不单单是一次技术升级,更是一场影响我们生活的变革。未来,家家都有机器人管家,也许真的不远了!
朋友们,你们期待机器人管家到来的那一天吗? 对英伟达的Cosmos世界模型,你们有什么想法? 欢迎在评论区一起聊聊!别忘了,分享给你那些对AI技术感兴趣的小伙伴们哦!
关注我 mytoolsAI,带你了解每日最新人工智能,AI信息!
作者:Ryan
审核:nash
用户16xxx16
的