MistralAI推出首款多模态模型Pixtral12B，正式进军...

在当前 AI 领域竞争日益激烈的背景下，法国 AI 初创公司 Mistral AI 正渐渐展露头角。日前，这家成立不到两年的公司推出了它的第一款多模态 AI 模型 Pixtral 12B，正式进军图像处理领域，向业界巨头 OpenAI 和 Anthropic 发起挑战。在欧盟的大力支持下，这一举措在展示 Mistral AI 在技术创新方面雄心的同时，也反映出 AI 行业向多模态发展的大趋势。值得一提的是，Mistral AI 的联合创始人兼 CEO 亚瑟·门施（Arthur Mensch）还入选了 2024 年《麻省理工科技评论》“35 岁以下科技创新 35 人”全球名单。在他的带领下，这家只有 65 人的年轻公司正在挑战资源和资金都更雄厚的科技巨头。 Pixtral 12B 是 Mistral AI 首次尝试将视觉处理能力与自然语言处理相结合的产品。这款模型基于该公司此前发布的文本模型 Nemo 12B，通过增加一个 4 亿参数的视觉适配器，实现了对图像和文本的双重处理能力。 Pixtral 12B 共拥有约 120 亿个参数，分布在 40 个层中，具有 14336 个隐藏维度和 32 个注意力头，为复杂的计算处理提供了强大支持。在视觉处理方面，Pixtral 12B 具有专门的视觉编码器，其支持 1024×1024 像素分辨率的图像处理，并拥有 24 个隐藏层。该模型采用 16×16 像素的图像块处理方式，这种灵活的设计使其能够有效处理高分辨率图像。此外，Pixtral 12B 还引入了 2D 旋转位置嵌入（RoPE，Rotary Position Embedding）技术，提升了模型理解图像空间关系的能力。在实际应用中，用户可以通过统一资源定位系统（URL，uniform resource locator）或 base64 编码的方式输入图像，结合文本提示来分析图像内容。这意味着 Pixtral 12B 能够执行诸如图像分类、物体计数、图像描述生成等多样化的任务。为了支持图像处理功能，模型还新增了“img”“img_break”和“img_end”三个特殊 token。 Mistral AI 选择了一种非常规的方式，来发布 Pixtral 12B。该公司首先通过种子链接发布了模型文件的下载途径，文件大小约 24GB。随后，在 GitHub 和人工智能分发平台 Hugging Face 上公开了源代码。尽管目前该模型尚未在网络上提供直接访问权限，但开发者可以通过下载源代码在个人环境中进行测试和使用。 Mistral AI 的开发者关系负责人索菲亚·杨（Sophia Yang）在社交媒体上表示，公司将很快通过其网络聊天机器人提供 Pixtral 12B 的使用接口，让潜在的开发者能够体验这一新模型。此外，Pixtral 12B 还将在 Mistral 的 Le Platforme 平台上提供应用程序编程接口（API，Application Programming Interface）端口，方便开发者在自己的应用中集成这一技术。值得注意的是，Mistral AI 尚未明确 Pixtral 12B 的授权条款。该公司此前发布的部分模型采用了 Apache 2.0 开源许可，但 Pixtral 12B 是否也采用相同许可尚未可知。业界普遍推测，该模型可能会对研究和学术用途免费开放，而商业应用则需要付费许可。 Pixtral 12B 的一个显著特点是其灵活的图像处理能力。据索菲亚介绍，该模型原生支持处理任意数量和大小的图像。这种灵活性使得 Pixtral 12B 在各种复杂场景中都能发挥作用，从简单的图像描述任务到复杂的视觉问答系统都能胜任。在技术细节方面，Pixtral 12B 的文本量扩展到了 131072 个 token，为模型提供了更广泛的语言理解和生成能力。结合其强大的视觉处理功能，Pixtral 12B 有望在诸如内容分析、数据可视化、图像检索等领域发挥重要作用。尽管 Mistral AI 尚未公开 Pixtral 12B 的训练数据集和详细性能指标，但业界普遍认为，这款模型将为视觉应用的开发和数据分析带来新的可能性。随着越来越多的开发者开始下载和测试 Pixtral 12B，有望在不久的将来看到更多关于其实际性能和应用潜力的具体信息。 Pixtral 12B 的发布标志着 Mistral AI 正式进入多模态 AI 领域，这一举措体现了该公司在 AI 技术竞争中的雄心。自公司成立以来，Mistral AI 不仅建立了强大的模型研发管线，还与微软和亚马逊等行业巨头建立了合作关系，以扩大其技术的影响力。在资金支持方面，Mistral AI 也取得了显著成果。该公司最近以 60 亿美元的估值筹集了 6.4 亿美元融资，这为其持续的技术创新和市场扩张提供了强有力的支持。紧随融资之后，Mistral AI 推出了 Mistral Large 2，这是一个具有先进多语言能力的、可媲美 GPT-4 的模型，在推理、代码生成和数学计算等方面都具有出色的表现。除了 Pixtral 12B 和 Mistral Large 2，Mistral AI 还发布了其他几款专业模型，包括混合专家模型 Mixtral 8x22B、220 亿参数的开放权重编码模型 Codestral，以及专门用于数学推理和科学发现的模型。这一系列模型的推出，展示了 Mistral AI 在不同 AI 应用领域的全面布局。然而，Mistral AI 面临的挑战同样不容忽视。在多模态 AI 领域，OpenAI、Anthropic 和谷歌等公司已经推出了成熟的产品，如 GPT-4、Claude 和 Gemini 系列模型。这些模型不仅已经在市场上获得了广泛应用，还在性能和功能上不断迭代升级。虽然被视为是欧洲生成式 AI 领域的领军企业，但 Mistral AI 能否在这个竞争激烈的领域中保持竞争力，进而实现规模化和商业化，还需要时间来证明。参考资料： https://www.maginative.com/article/mistral-ai-unveils-pixtral-12b-a-multimodal-ai-model-for-text-and-image-processing/ https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/ https://mashable.com/article/mistral-releases-pixtral-12b-image-text-multimodal-ai 运营/排版：何晨龙