一文读懂 CLIP：多模态 AI 的核心原理与应用

「多模态」这个词，相信各位开发者已经比较熟悉了，多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。

而今天马建仓要为开发者们介绍的 CLIP（Contrastive Language–Image Pretraining）就是 OpenAI 在 2021 年发布的多模态模型，它通过跨模态学习，成功地将图像与文本在统一的语义空间中表示，能够让机器同时理解图片和文字。这意味着，CLIP 不仅能「看图」，还能理解图像的「文字描述」，帮助我们在图像和文本之间实现更智能的匹配。

CLIP 模型的核心：对比学习

CLIP 的核心是「对比学习」，即让图像和文字在同一个语义空间中进行对比。

如果有一张猫咪的照片以及一段描述「一只可爱的猫咪」，CLIP 会学着将这对图片和文字放到相近的位置，同时把不相关的图片-文字对拉远。比如小狗的照片和「一只可爱的猫咪」的描述则会被模型区分开来，放在较远的位置。

在 CLIP 的训练过程中，模型会对成千上万对图像和文字进行匹配训练，让相关的图像和文字对的数值向量靠近，不相关的则相互远离。这样一来，CLIP 可以理解文字和图片的含义并进行匹配，从而实现「看图识物」或「图文对比」的效果。

CLIP 模型的技术原理

在技术上，CLIP 包含两个重要的部分：

图像编码器：用于提取图像的特征。通常使用的是 ResNet 或 ViT（Vision Transformer）模型，将图片转化为数值向量。文本编码器：用于提取文本的特征，常用 Transformer 架构来将文字转化为数值表示。

上面这张图片就展示了 CLIP 模型的核心工作原理和应用流程。CLIP 通过对比学习预训练图像编码器和文本编码器，使得图像和文本可以在同一空间中进行语义匹配。整个过程分为三个主要步骤：

1️⃣ 对比学习预训练

在第一步中，CLIP 模型通过对比学习进行预训练，图像和文本分别通过图像编码器和文本编码器编码为向量表示（embedding）。在这里，图像和文本配对进行训练，例如输入pepper the aussie pup（描述一只小狗）和对应的小狗照片。模型的目标是将匹配的图像-文本对在语义空间中拉近，而将不匹配的图像-文本对推远。

图中所示，文本编码器将每个文本转换为嵌入（例如，T1,T2,T3,...,TNT_1,T_2,T_3,...,T_NT1,T2,T3,...,TN），图像编码器则将每个图像转换为相应的嵌入（例如，I1,I2,I3,...,INI_1,I_2,I_3,...,I_NI1,I2,I3,...,IN）。然后，模型通过对比学习来优化图像和文本的嵌入，使得正确的图文对的相似性最高。

2️⃣ 基于文本标签创建分类器

在第二步，CLIP 利用文本标签构建了一个数据集分类器。这一步的创新在于可以将分类标签转换为描述性文本，例如把dog标签转换为a photo of a dog。然后，这些文本描述通过文本编码器编码为向量嵌入，与图像的嵌入向量进行对比。这样，CLIP 可以将常见的分类任务转化为图文对比任务。

3️⃣ 零样本预测（Zero-shot Prediction）

在第三步，CLIP 被用于零样本分类任务。给定一张新的图片（例如，图中的一只狗的照片），图像编码器将其编码为向量嵌入（I1I_1I1）。然后，该向量嵌入与所有文本嵌入（例如a photo of a plane、a photo of a car、a photo of a dog等）进行对比，找到与图像向量最相近的文本嵌入，从而实现零样本分类。

通过以上的步骤，CLIP 模型通过对比学习，将图像和文本映射到同一语义空间，使得图像和文本可以直接进行相似性匹配，从而实现零样本分类。这使得 CLIP 在没有特定标注的情况下，只需输入描述性文本即可完成各种分类任务。

相比于传统的图像分类模型，CLIP 具备了更高的灵活性和通用性，因为它可以不限于预设的类别，通过自然语言的描述，识别出符合描述的对象。

CLIP 模型的应用场景

CLIP 的强大功能使其在很多领域得到了应用，尤其在图像搜索、内容推荐和生成模型中发挥了重要作用。以下是几个典型的应用场景：

文本/图片搜索图片

传统搜索往往是基于关键词标签，而CLIP通过理解图片的视觉内容，可以直接支持自然语言描述和上传图片进行搜索。例如，如果在图库中输入戴着眼镜的猫，CLIP 可以将符合该描述的图片识别出来。这对于社交媒体、在线商店等平台的搜索功能非常有帮助。

个性化推荐

CLIP 还可以应用在内容推荐中，特别是跨模态推荐系统中。它可以根据用户的图文偏好进行智能推荐，例如在视频网站中，用图像找到相似的短视频，或者在内容平台中通过文字找到类似的图像或视频。这种功能不仅提升了用户体验，还可以在推荐算法中加入更多的多模态元素。

辅助生成模型

CLIP 模型在图像生成任务中也有广泛应用，例如在一些生成模型（如 DALL-E 和 Stable Diffusion）中，它可以帮助生成符合文字描述的图像，并且在生成过程中提供评价依据。CLIP 可以判断生成的图像是否与文字描述相符，从而提高生成结果的质量。

低门槛训练自己的 CLIP 模型

随着 CLIP 模型展示出强大的多模态应用潜力，越来越多的开发者希望将图文匹配、零样本分类等功能引入自己的项目中。无论是图像搜索、智能推荐，还是自动化内容审核，CLIP 的应用前景都非常广阔。

然而，训练和部署类似 CLIP 的多模态模型，需要大量图文数据以及强大的计算资源，这对于大多数企业或开发者来说，是一笔不小的开销。

Gitee AI 团队也关注到了开发者对于 CLIP 相关模型的需求，于近日在 Serverless API 中上线了基于jina-clip-v1的 API，开发者可以直接调用jina-clip-v1进行图文匹配、图像分类和检索等任务，快速集成到业务应用中。

Jina-CLIP-V1 是由 Jina AI 团队开发的多模态检索模型。基于数十亿参数的训练，Jina-CLIP-V1 在视觉理解、跨模态文本匹配以及语义检索方面表现出色。得益于其强大的文本和图像特征学习能力，该模型能够在多种应用场景中提供高质量的跨模态搜索体验。

在使用过程中，开发者仅需为实际使用的 API 请求付费，无需承担模型训练、维护和扩展的高额费用。这样既降低了多模态AI的门槛，又有效控制了开发成本，使得小团队和初创公司也能负担得起多模态AI的应用开发，实现更高性价比的AI项目。

Gitee AI 始终专注于降低 AI 应用的开发门槛，jina-clip-v1上线 Serverless API 让没有深厚的 AI 背景的开发者也能在图文匹配、图像搜索等场景中快速实现跨模态的应用，如果你对开发相关应用感兴趣却被技术门槛和成本劝退，那就来试试 Serverless API 吧！

Serverless API 还提供了文本生成、语音识别、语音生成、向量与重排模型、代码生成等多种类型下的多个大模型的 API 使用。同时，Gitee AI 也上线了模型资源包，通过极低的价格即可尽享众多主流模型。

世良情感网

一文读懂 CLIP：多模态 AI 的核心原理与应用

热门分类