「多模态」这个词,相信各位开发者已经比较熟悉了,多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。
而今天马建仓要为开发者们介绍的 CLIP(Contrastive Language–Image Pretraining)就是 OpenAI 在 2021 年发布的多模态模型,它通过跨模态学习,成功地将图像与文本在统一的语义空间中表示,能够让机器同时理解图片和文字。这意味着,CLIP 不仅能「看图」,还能理解图像的「文字描述」,帮助我们在图像和文本之间实现更智能的匹配。
CLIP 模型的核心:对比学习CLIP 的核心是「对比学习」,即让图像和文字在同一个语义空间中进行对比。
如果有一张猫咪的照片以及一段描述「一只可爱的猫咪」,CLIP 会学着将这对图片和文字放到相近的位置,同时把不相关的图片-文字对拉远。比如小狗的照片和「一只可爱的猫咪」的描述则会被模型区分开来,放在较远的位置。
在 CLIP 的训练过程中,模型会对成千上万对图像和文字进行匹配训练,让相关的图像和文字对的数值向量靠近,不相关的则相互远离。这样一来,CLIP 可以理解文字和图片的含义并进行匹配,从而实现「看图识物」或「图文对比」的效果。
CLIP 模型的技术原理在技术上,CLIP 包含两个重要的部分:
图像编码器:用于提取图像的特征。通常使用的是 ResNet 或 ViT(Vision Transformer)模型,将图片转化为数值向量。文本编码器:用于提取文本的特征,常用 Transformer 架构来将文字转化为数值表示。上面这张图片就展示了 CLIP 模型的核心工作原理和应用流程。CLIP 通过对比学习预训练图像编码器和文本编码器,使得图像和文本可以在同一空间中进行语义匹配。整个过程分为三个主要步骤:
1️⃣ 对比学习预训练
在第一步中,CLIP 模型通过对比学习进行预训练,图像和文本分别通过图像编码器和文本编码器编码为向量表示(embedding)。在这里,图像和文本配对进行训练,例如输入pepper the aussie pup(描述一只小狗)和对应的小狗照片。模型的目标是将匹配的图像-文本对在语义空间中拉近,而将不匹配的图像-文本对推远。
图中所示,文本编码器将每个文本转换为嵌入(例如,T1,T2,T3,...,TNT_1,T_2,T_3,...,T_NT1,T2,T3,...,TN),图像编码器则将每个图像转换为相应的嵌入(例如,I1,I2,I3,...,INI_1,I_2,I_3,...,I_NI1,I2,I3,...,IN)。然后,模型通过对比学习来优化图像和文本的嵌入,使得正确的图文对的相似性最高。
2️⃣ 基于文本标签创建分类器
在第二步,CLIP 利用文本标签构建了一个数据集分类器。这一步的创新在于可以将分类标签转换为描述性文本,例如把dog标签转换为a photo of a dog。然后,这些文本描述通过文本编码器编码为向量嵌入,与图像的嵌入向量进行对比。这样,CLIP 可以将常见的分类任务转化为图文对比任务。
3️⃣ 零样本预测(Zero-shot Prediction)
在第三步,CLIP 被用于零样本分类任务。给定一张新的图片(例如,图中的一只狗的照片),图像编码器将其编码为向量嵌入(I1I_1I1)。然后,该向量嵌入与所有文本嵌入(例如a photo of a plane、a photo of a car、a photo of a dog等)进行对比,找到与图像向量最相近的文本嵌入,从而实现零样本分类。
通过以上的步骤,CLIP 模型通过对比学习,将图像和文本映射到同一语义空间,使得图像和文本可以直接进行相似性匹配,从而实现零样本分类。这使得 CLIP 在没有特定标注的情况下,只需输入描述性文本即可完成各种分类任务。
相比于传统的图像分类模型,CLIP 具备了更高的灵活性和通用性,因为它可以不限于预设的类别,通过自然语言的描述,识别出符合描述的对象。
CLIP 模型的应用场景CLIP 的强大功能使其在很多领域得到了应用,尤其在图像搜索、内容推荐和生成模型中发挥了重要作用。以下是几个典型的应用场景:
文本/图片搜索图片传统搜索往往是基于关键词标签,而CLIP通过理解图片的视觉内容,可以直接支持自然语言描述和上传图片进行搜索。例如,如果在图库中输入戴着眼镜的猫,CLIP 可以将符合该描述的图片识别出来。这对于社交媒体、在线商店等平台的搜索功能非常有帮助。
个性化推荐CLIP 还可以应用在内容推荐中,特别是跨模态推荐系统中。它可以根据用户的图文偏好进行智能推荐,例如在视频网站中,用图像找到相似的短视频,或者在内容平台中通过文字找到类似的图像或视频。这种功能不仅提升了用户体验,还可以在推荐算法中加入更多的多模态元素。
辅助生成模型CLIP 模型在图像生成任务中也有广泛应用,例如在一些生成模型(如 DALL-E 和 Stable Diffusion)中,它可以帮助生成符合文字描述的图像,并且在生成过程中提供评价依据。CLIP 可以判断生成的图像是否与文字描述相符,从而提高生成结果的质量。
低门槛训练自己的 CLIP 模型随着 CLIP 模型展示出强大的多模态应用潜力,越来越多的开发者希望将图文匹配、零样本分类等功能引入自己的项目中。无论是图像搜索、智能推荐,还是自动化内容审核,CLIP 的应用前景都非常广阔。
然而,训练和部署类似 CLIP 的多模态模型,需要大量图文数据以及强大的计算资源,这对于大多数企业或开发者来说,是一笔不小的开销。
Gitee AI 团队也关注到了开发者对于 CLIP 相关模型的需求,于近日在 Serverless API 中上线了基于jina-clip-v1的 API,开发者可以直接调用jina-clip-v1进行图文匹配、图像分类和检索等任务,快速集成到业务应用中。
Jina-CLIP-V1 是由 Jina AI 团队开发的多模态检索模型。基于数十亿参数的训练,Jina-CLIP-V1 在视觉理解、跨模态文本匹配以及语义检索方面表现出色。得益于其强大的文本和图像特征学习能力,该模型能够在多种应用场景中提供高质量的跨模态搜索体验。
在使用过程中,开发者仅需为实际使用的 API 请求付费,无需承担模型训练、维护和扩展的高额费用。这样既降低了多模态AI的门槛,又有效控制了开发成本,使得小团队和初创公司也能负担得起多模态AI的应用开发,实现更高性价比的AI项目。
Gitee AI 始终专注于降低 AI 应用的开发门槛,jina-clip-v1上线 Serverless API 让没有深厚的 AI 背景的开发者也能在图文匹配、图像搜索等场景中快速实现跨模态的应用,如果你对开发相关应用感兴趣却被技术门槛和成本劝退,那就来试试 Serverless API 吧!
Serverless API 还提供了文本生成、语音识别、语音生成、向量与重排模型、代码生成等多种类型下的多个大模型的 API 使用。同时,Gitee AI 也上线了模型资源包,通过极低的价格即可尽享众多主流模型。