Align-DS-V:站在DeepSeek-R1肩膀上,引领多模态...

开源其实不简单 2025-02-19 21:03:15

在通用人工智能的演进中,多模态能力正成为大模型突破认知边界的关键。在DeepSeek-R1推出后,同样引起了学术界科研工作者们的关注,并以DeepSeek-R1-Distill-Lalama-8B为基础带来了新的突破。

近日,北京大学联合香港科技大学团队基于自研全模态对齐框架Align-Anything,首次将纯文本模态的DeepSeek-R1系列模型拓展至图文模态,推出多模态推理模型Align-DS-V。

基于 DeepSeek-R1 的首次多模态延伸

Align-DS-V是基于DeepSeek R1的多模态扩展,经过对视觉编码器(Vision Encoder)进行优化,使用DeepSeek R1的图文模态拓展方法,使其能够更好地理解和处理图文混合的信息。与传统的视觉模型不同,Align-DS-V不仅提升了视觉理解的能力,还在图文联动推理方面表现出色。

通过借鉴LLaVA的训练思路,Align-DS-V将视觉信息投射到语言表示空间,从而实现图像与文本的深度结合。这使得该模型在面对复杂的图文问题时,能够准确地融合信息并进行严密的推理,展现了其在跨模态任务中的强大能力。

多模态性能齐平 GPT-4o,推理能力不降反增

作为视觉模型,Align-DS-V在各种 VQA(Visual Question Answering,视觉问答)和推理任务中展示出了强大的性能,达到了与GPT-4o齐平的水准。

此外研究团队还发现,将DeepSeek-R1-Distill-lalama-8b扩展到多模态后,甚至将模型的原始文本模式推理能力方面再提升了一个台阶。

Align-Anything:全模态对齐的幕后英雄

在Align-DS-V背后,除了DeepSeek-R1这个「巨人的肩膀」外,同样重要的还有和Align-DS-V一起开源的幕后英雄:全模态框架Align-Anything。

Align-Anything旨在将任何模态的大模型(任意对任意模型),包括LLM(大语言模型)、VLM(视觉语言模型)等,与人类的意图和价值观对齐。

据团队发表的论文《AI Alignment: A Comprehensive Survey(人工智能对齐:全面性综述)》中所解释,人工智能对齐的四个关键目标为:鲁棒性(Robustness)、可解释性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) ,统称 RICE。

该框架支持多种模态之间的转换与融合,包括文本生成文本、文本生成图像、图像生成文本、视频生成文本等任意模态间的输入输出。其设计理念高度模块化、可扩展,并且易于用户进行定制和扩展。

该框架具有以下特点:

高度模块化的框架:其多功能性源自于不同算法类型的抽象和精心设计的 API,允许用户轻松修改和定制代码以适应不同任务。多种模态模型微调:支持对LLaMA3.2、LLaVA、Gemma、Qwen2Audio、Chameleon等模型的微调能力。多种对齐方法:包括SFT、DPO、PPO等不同的对齐算法。多模态命令行接口:支持图像、音频和视频模态的多模态命令行接口。类o1的训练:基于DollyTails的类o1的训练。首个全模态人类偏好数据集

此外,Align-Anything框架还发布了首个全模态人类偏好数据集align-anything-200k。数据集涵盖了8个子任务,涉及文本、图像、音频和视频等多种模态。每种模态具有不同的语义特征和分布模式,覆盖了多个潜在空间。这表明,所有模态的对齐不能仅依赖特定模态的数据;而是需要跨模态数据的整合。

语言反馈学习:平均改进幅度达 5.83 倍

同时,Align-Anything团队还提出了语言反馈学习(learning from language feedback,LLF),利用语言反馈来优化响应,综合偏好数据,从而提高多模态对齐的性能,流程如下图:

反馈建模:使用标注的语言反馈对初始模型进行微调自我提升:初始模型根据语言反馈优化响应以合成偏好对

根据团队论文中的结果,语言反馈学习在 5 种模态、5 个开源模型和 7 个流行基准上的平均改进幅度达到了 5.83 倍:

全模态模型的评价框架:eval-anything

目前对全模态模型的评估依赖于人类专家进行评估,这种方法效率低且成本高。此外,全模态模型能够根据用户查询独特地选择合适的模态,实现无缝的跨模态协同,而传统的单一模态评估流程无法完全捕捉这一能力。

为此,团队提出了专门为全模态模型设计的评估框架:eval-anything,其中包括:

全模态理解(AMU):评估模型同时处理和整合来自所有模态的信息的能力全模态生成(AMG):评估模型按照用户指令进行操作、自动选择模态,并在不同模态之间协同工作以生成输出的能力

Align-DS-V作为DeepSeek-R1的多模态扩展,不仅在视觉理解上取得了卓越的成果,还成功将图文推理推向了新的高度,展示了强大的跨模态协同能力。

借助Align-Anything框架的支撑,全模态模型的开发迎来了更为强大且系统化的工具与方法论。以Align-DS-V为始,多模态模型能否应该多模+推理的新时代呢?我们一同拭目以待。

Align-DS-V现已第一时间上线 Serverless API,开发者可前往GiteeAI体验使用。

Gitee AI 的 Serverless API 提供了文本生成、视觉模型、图像处理、语音识别、语音生成、向量与重排模型、代码生成等 9 种类型共 55 个大模型的 API 使用。通过购买模型资源包,即可通过极低的价格即可尽享众多主流模型。

0 阅读:2
开源其实不简单

开源其实不简单

感谢大家的关注