Apple 推出了一款惊艳的 AI 模型,名为 MGIE,它赋予用户通过自然语言指令编辑图像的能力。MGIE,即 MLLM 引导图像编辑的缩写,利用大型语言模型来解读文本提示,并对照片进行像素级的精准修改。这一全新的开源工具,展示了多模式人工智能的重大突破,无疑将极大地提升创意工作流程。
MGIE 是 Apple 与加州大学圣巴巴拉分校研究人员的共同研究成果。在国际学习表征会议上,该模型作为一篇论文被提出,这一会议是展示前沿人工智能系统的权威平台。论文中详细描述的实验结果,充分证明了 MGIE 在改进图像编辑指标以及人类评估方面的出色表现。并且,该系统在保持卓越性能的同时,还维持了高效的计算效率。
那么,MGIE 是如何发挥其神奇魔力的呢?这要归功于它结合了多模式大语言模型 (MLLM),这种模型能够理解指令并生成视觉输出。MLLM 在跨模式推理和针对文本与图像输入给出适当响应方面,展现出了强大的能力。通过将 MLLM 整合到编辑流程中,MGIE 能够将用户的命令转化为简洁、明确的编辑指南。比如,一句“让天空更蓝”就可以转化为“将天空区域的饱和度增加20%”。MGIE 的多功能设计能够满足各种图像编辑需求。它不仅能处理常见的 Photoshop 调整,如裁剪、旋转和过滤,还能执行更高级的对象操作、背景替换和照片混合。MGIE 通过调整亮度、对比度等属性,对图像进行全局优化。同时,它还能对特定区域和对象进行局部编辑。该系统甚至能改变视觉属性,包括形状、大小、颜色、纹理和样式。
虽然 MGIE 无法像 ChatGPT 那样通过应用程序或网站直接访问,但如果你是一名开发人员,那么使用 MGIE 将是十分简便的。其代码、数据和预训练模型都可以在开源的 GitHub 存储库中找到。该项目还提供了一个演示笔记本,详细说明了 MGIE 如何实现各种编辑功能。此外,用户还可以访问 Hugging Face Spaces 上的实时网络演示,亲自试验该模型。
MGIE 的亮点在于它接受自然语言指令,并输出经过编辑的图片以及相应的编辑步骤。用户可以提供反馈,以便进一步优化结果。其灵活的 API 让 MGIE 可以轻松地集成到其他需要图像处理功能的应用程序中。MGIE 的诞生,标志着基于指令的图像编辑迈出了激动人心的一步。它充分展示了利用 MLLM 增强图像编辑的潜力,并为跨模式交互和通信开创了崭新的可能性。