OpenAISoravs.谷歌Gemini1.5

科技有极道 2024-02-23 09:40:39
要点: OpenAI Sora对游戏行业影响最大谷歌Gemini 1.5的长上下文窗口对企业影响最大 1、OpenAI推出第一个文本转视频模型Sora 是一个 AI 模型,可以根据文本指令创建现实且富有想象力的场景。 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。 OpenAI Sora是一个数据驱动的物理引擎如果你认为OpenAI Sora是一个像DALLE一样的创意玩具?请再想想。Sora是一个数据驱动的物理引擎。它是许多世界的模拟,真实的或幻想的。模拟器学习复杂的渲染,“直观”的物理学,长视野推理和语义基础。 OpenAI Sora是一个端到端的扩散变换器模型。它直接输入文本/图像并输出视频像素。 Sora 通过海量视频,以梯度下降的方式在神经参数中隐含地学习物理引擎。 Sora 是一个可学习的模拟器,或称 "世界模型"。当然,它不会在循环中明确调用 UE5,但有可能将 UE5 生成的(文本、视频)对作为合成数据添加到训练集中。 Sora能从头开始构建MinecraftOpenAI会成为下一个游戏引擎。OAI自己说这只是一个视频传播模型。训练过程/数据收集def使用游戏引擎。 人们现在都认为Sora对好莱坞电影影响大,但实际上认为它对视频游戏开发具有更大的影响,至少在不久的将来,它对游戏行业的打击将比对电影行业的打击更大。 我可以想象,在未来的游戏开发过程中,你只需向人工智能描述一个大致的轮廓,然后让它生成一个可玩的初始版本,你只需继续玩下去,同时给它反馈和意见,让它动态地改变。 然后,人工智能会维护一种游戏定义文件,用来保持机制、风格、情节等的一致性,同时在玩家与之互动时填补空白。 因此,作为游戏开发者,你只需不停地玩这个东西,并指导人工智能如何调整它,当你对它足够满意时,你就可以与其他人共享该游戏文件,他们就可以始终如一地体验同样的游戏,甚至可以根据自己的喜好随意调整。 2、谷歌Gemini 1.5:长上下文窗口意味着什么? Google DeepMind 团队如何创建迄今为止任何大型基础模型中最长的上下文窗口。 Gemini 1.5 模型的创新之一是其长上下文窗口,可以处理多达 100 万个令牌的原始数据。长上下文窗口的突破性实验功能使模型可以接收和处理更多的文本、图像、音频、代码或视频。通过长上下文窗口,Gemini 1.5 Pro 可以进行诸如总结数千页长文档、分析数万行代码以及回答关于电影内容的问题等任务。 Gemini 1.5 Pro 的创新使其能够处理大规模的文本、图像、音频、代码或视频数据,为开发人员提供了更多创新和应用的可能性。 比较GPT-4 和 Gemini 1.5 在理解 HVM 的 120K 代币代码库的任务中,Gemini 1.5 彻底摧毁了 GPT-4-Turbo-128K。 GPT-4 做错的大多数问题都是在较小的提示中可以做对的问题,因此,巨大的上下文显然压倒了它,而 Gemini 1.5 根本不在乎。Gemini 仍然无法创建系统的完整心智模型,并回答需要其自身更深层推理的问题,因此,目前还没有 AGI;但Gemini 非常擅长定位现有信息、建立远程连接并在此基础上进行一些有限的推理。 10M上下文+上下文学习意味着,在推理时,它可以被训练来完成你的整个工作。甚至不需要对每个客户端进行微调。谷歌已经拥有如此疯狂的技术(在选定的用户手中得到验证)将在核心业务上全力以赴 - 将其交到企业手中。
0 阅读:6

科技有极道

简介:感谢大家的关注