谷歌新一代Gemini1.5多模态模型,最长可达100万token上下文窗口

，其Gemini模型是一个多模态模型，不仅可以支持文字输入，还支持图片输入。而在Gemini ultra发布不久，Gemini 1.5大模型也相继发布。Gemini 1.5在多个维度上都有了显著的改进，并且Gemini 1.5 Pro 实现了与Gemini 1.0 Ultra 相当的质量，但是Gemini 1.5大大降低了运算。

Gemini 1.5在长上下文理解方面也取得了突破。其模型可以持续运行多达 100 万个tokens上下文窗口，实现了迄今为止任何大型基础模型中最长的上下文窗口。其模型支持一个小时的视频，11个小时的音频文件，30k 行代码，700k多的文字的一次性输入。完全可以把一部小说给Gemini 1.5大模型了。若能再配上Sora文生视频大模型，岂不是直接可以输出一部电影或者电视剧了。

Gemini 1.5 建立在Transformer模型和MoE架构之上。传统 Transformer模型充当Gemini大型神经网络的框架，而 MoE 模型则分为更小的“专家”神经网络。根据给定输入的类型，MoE 专家模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的运算效率。通过Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4等研究，Google 一直是深度学习的先驱领袖。很多神经网络的大模型论文都是Google发布的，但是Google的使用场景方面，目前来看还是OpenAI领先一筹。

直接给模型一个阿波罗登陆月球的脚印，就可以愉快的跟Gemini 1.5聊天了。模型不仅支持输入图片，还支持输入视频。

完全可以给模型一个长达1小时的视频，这样就可以跟模型讨论里面的剧情与细节了，岂不是一个完美的电影搭档。

模型还支持30k行的代码与700k 的文字，一个完整项目的代码完全可以交给模型去找bug了。

给模型直接输入一篇长篇小说，就可以跟模型愉快的聊天，愉快的讨论小说内容了。

开发人员可以在Google AI Studio或者Vertex AI中构建基于Gemini 1.5的应用。如何使用Gemini模型，

Gemini 是Google发布的一个多模态模型，它是从头开始构建的多模态大模型。这意味着Gemini可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。Gemini 也是Google迄今为止最灵活的大模型 - 能够从数据处理中心到移动设备的所有设备上高效运行。针对三种不同的尺寸优化了 Gemini 1.0版本

Gemini Ultra——最大、最有能力的模型，适用于高度复杂的任务。

Gemini Pro——可扩展各种任务的最佳模型。

Gemini Nano——最高效的移动设备端任务模型。

随着OpenAI Sora大模型的发布，所有公司打出来all in AI的口号，而最近也是看到苹果等高科技公司也宣布退出汽车研发，转型到生成式AI大模型，可见大模型之争必然成为一个趋势。

0 阅读：0