多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。为此,复旦团队联合字节跳动提出了 VoCoT,这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。
VoCoT 具有两个关键特征:(1)以对象为中心的推理路径,围绕跨模态共享的对象级信息展开,以及(2)以多模态交叉和对齐的方式对对象概念进行视觉上的表征,有效地弥合了 LMM 在长文本过程中的模态差异。
通过将 VoCoT 引入流行的开源 LMM 架构中,研究人员引入了多模态大模型 VolCano。 在仅有 7B 个参数和有限的输入分辨率的条件下,VolCano 在各种场景下都表现出了优异的性能,在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。
论文标题:VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
论文链接:https://arxiv.org/abs/2405.16919
3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cn Claude-3研究测试:hiclaude3.com
背景与挑战思维链 (CoT) 是一种提高大模型推理能力的方法,通过允许模型将复杂问题分解成需要较少步骤的简单子任务,可以有效增强模型解决问题的能力。
▲图 1. 比较 LMM 中不同推理范式的示例。 (a) 需要复杂推理的视觉问题。 (b) 为解决问题而构建的以对象为中心的概念推理路径。 (c) GPT-4V 和拟议的 VolCano 的输出。 GPT-4V 的输出中包含幻觉。 VoCalno 以 VoCoT 格式执行多步推理。关键对象会突出显示,颜色表示对象描述与图像中接地对象之间的对应关系。 “box”表示所提到的对象的边界框坐标。
如图1所示,想要正确回答问题需要分析多个对象的动作和关系,并逐步推理,这在 LLM 的单步预测中几乎不可能完成。此外,直接生成答案的范式模糊了解决问题的过程,这降低了模型输出的可解释性。
尽管涉及多步推理的思路链范式已在 LLM 中得到广泛探索,但是在多模态的复杂语境下,仍然面临许多的挑战:
难以在多模态语境中整合推理锚点。文本大模型主要从语境中提取实体等关键信息作为锚点,并围绕这些锚点进行多步推理。而在多模态语境中,锚点信息需要作为图像和文本之间共享的概念,并在两种模态之间建立联系。现有的工作尝试在图像中引入锚点信息,例如分割图和点阵,这需要 LMM 具有很强的能力来理解这些信息。LMM 可能无法将文本描述与相应的视觉信息对齐,从而导致生成错误的信息。例如,GPT-4V 错误地将目标人物与图1中的服务员联系起来,因此输出了错误的推理结果。什么是 VoCoT ?VOCOT 与文本 CoT类似,主要以文本形式表达其推理逻辑。然而,多模态上下文和纯文本上下文之间存在着明显的差距。
为了在多模态上下文中构建有效可靠的推理路径,该研究用两个特征来描述 VoCoT: (1)以对象为中心。对象是图像中的基本语义单元,可以作为锚点来建立多模态上下文信息之间的联系。因此,VoCoT需要包含重要对象,然后进行相关信息的提取和分析。 (2)以视觉为基础。VoCoT中包含的关键对象应该用“<文本描述,坐标,视觉对象表示>”的三元组来表示,坐标表示图像中的基础对象,而视觉表示是该对象的特征,有助于增强推理路径中的跨模态相关性。
构建VoCoT 格式的数据作者使用以下三种类型的数据源,构建了 VoCoT-Instruct-80K 数据集,分别包括 72K、6K 和 2K 个样本:
GQA(Generalized Question Answering)数据集。GQA 是一个包含结构化信息的 VQA(Visual Question Answering)数据集,每张图片都与一个场景图相对应,并且为每个 VQA 对提供了在相应场景图上类似 SQL 的推理路径。作者使用基于规则的方法将 SQL-like 的查询语句和答案转换成连贯完整的文字推理思路。同时,还利用了 GQA 数据源中的物体边界框来补充在文字推理思路中出现的对象信息。基于 VQA 的数据。在问答过程中插入多步骤的推理过程来补充 VQA 数据,并借助 GPT-4V 根据图片、问题、答案和图片中的物体信息生成推理思路。通过在上下文学习中控制输出格式,可以确保生成的推理思路符合要求。为了确保复杂推理问题的抽样,作者从 LLaVA-Instruct 的复杂推理问题中选择了一部分数据作为源数据。仅图片数据。虽然前两种构建方式很有效,但生成的数据仅限于现有的问题。为了丰富问题和推理逻辑,作者利用 GPT-4V 强大的生成能力扩展了构建的数据集。通过提供图片和物体信息,要求 GPT-4V 生成复杂的问题,并生成符合 VoCoT 格式的推理路径和答案。为了确保输出格式的正确性,作者还加入了上下文样本,并选择了 LVIS(Large Vocabulary Instance Segmentation)作为数据源。擅长 VoCoT 推理的 VolCano 模型基于 VoCoT 框架和构建的数据集 VoCoT-Instruct-80K,作者开发了 VolCano,这是一种基于视觉的多模态思维链推理模型。VolCano 具有 7B 参数规模,支持 336 ✖️ 336 的输入分辨率,在需要复杂推理和组合能力的各种基准测试中超过了GPT-4V。
▲图 2:VolCano 框架的图示。蓝色和绿色圆角矩形分别代表文本和视觉token。特殊token“[c]”和“[/c]”表示坐标的开始和结束(图中为“[coor.]”)。坐标以文本表示。在输出中,通过在图像中绘制相应的框来可视化坐标,以更好地进行说明。RefBind 使用图像特征和预测坐标来计算对象的视觉表示。
多模态序列的表征VolCano将图像文本数据表示为交错的视觉和文本token序列。文本输入经过分词和嵌入层进行表示。图像和物体可以出现在序列的任何位置,并由视觉token表示。图像通过视觉编码器进行编码,并被展平成一维的视觉token序列。连接模块则是将视觉token与嵌入文本token映射到相同的维度。
每个物体都以视觉相关的形式进行表示:" {文本描述} [c] {坐标} [/c] {视觉表示}", 例如,"dog [c] "。"[c]"和"[/c]"是特殊token,表示坐标的起始和结束。作者使用边界框 作为物体的坐标, 和 在图像大小的范围内归一化到0和1之间。
RefBind 机制除了文本和坐标,物体的特征(例如 )被用以帮助模型引用图像中相应的视觉信息。
一种直接将物体特征输入模型的方式是:先裁剪图像中的相应区域,再使用视觉编码器对每个子图像进行编码。但是,这种方法会带来额外的计算成本,并且会丢失完整图像的上下文信息,就像早期的目标检测方法一样。
为了解决上述问题,作者提出了 RefBind 机制。通过RefBind机制,可以基于坐标和图像token获取物体的视觉token。
一旦在输入或生成的序列中检测到坐标结束token "[/c]",就会激活 RefBind 机制,从而基于"[c]"和"[/c]"之间的坐标来获取物体token,并将其添加在"[/c]"token之后,使模型获得坐标位置处的物体信息。
▲图 3. RefBind 机制。
优化目标训练目标 VolCano 的训练目标统一为因果建模损失:
其中 是数据集 中的构造序列, 是模型建模的概率分布,表示模型的参数。对于每个序列 , 表示需要预测的token集合。在实践中,只包含文本token,包括特殊token、坐标和自然文本。在预训练时,所有的文本token都包含在 中,而在指令微调中,只有回答部分的token被考虑在 中。
实验结果作者在通用视觉问答、视觉空间推理、幻觉任务、多模态组合逻辑任务上进行了实验,对比了现有的基于单步推理的视觉语言多模态大模型,包括BLIP-2、InstructBLIP、Shikra、mPLUG-Owl2、MiniGPTv2、Qwen-VL-Chat和LLaVA-1.5等。此外,作者还对比了输入多张图像输入的 SOTA 模型,如LLaVA-1.6、Deepseek-VL和Monkey等,并构建了一个单步推理基线模型 VolCano-SE作为对比。
▲表 2: 与SOTA LLM 在10个基准上的比较。
VolCano在单图像输入的模型中表现出色:在大多数数据集中,VolCano 相比其它的单图像输入模型要表现最好,在复杂任务中表现则更为出色。引入VoCoT有效缓解幻觉问题:相比于Zero-Shot CoT、Text CoT、Coor. CoT和Sub-Img CoT等格式的 CoT (表.3),作者认为 VoCoT 是最合适的格式,它能够有效地处理多步推理、减少幻觉,并在各种任务中提高性能。多步推理带来的优势要优于高分辨率输入:在需要复杂推理的任务中,对比支持高分辨率输入的 LMM,VolCano能够获得相当或者更佳的性能,表明引入多步推理比输入高分辨率图像具有优势。▲表.3: 不同CoT格式之间的比较。“Obj-Format”列表示对象的表示格式。T, C, S 和 R 分别是文本,坐标,子图像,RefBind的缩写。
不同数据类型的影响作者也对 VoCoT-Instruct-80K 中三种数据类型的作用进行了探索,发现仅使用类型1(基于GQA的数据)的情况下,模型在精确性方面表现出色,但在多样性方面受限。此时训练的模型产生的幻觉最少,但难以处理多样化的问题。
而类型2和类型3数据可以有效地帮助模型在各种指示中泛化。但是,这不意味着可能直接删除类型1的数据,因为这会增加幻觉的风险。
▲表.4 对 VoCoT-Instruct-80K 的数据类型进行消融。
VoCoT 有助于提高复杂推理能力
作者比较了CLEVR中 VolCano-SE 和 VolCano 在不同难度问题上的表现。根据拟合曲线和置信区间,可以明显看出,随着所需推理步骤的增加,多步骤推理的优势变得更加明显。
强大的基础能力作者采用了RefCOCOg和CLEVR-Ref中的指代表达任务来评估模型的视觉基础能力。从表5可以观察到,输入分辨率较低的VolCano在RefCOCOg上表现出了相对较好的性能。而在跨领域的数据集CLEVR-Ref上,VolCano明显优于其他模型。这些结果表明VolCano具有强大且可推广的基础能力。
▲表.5
VolCano的推理能力作者将多模态大模型的推理过程分为分析和判断两个子过程。其中分析过程用于构建推理路径,而判断过程则提供结论。
在VSR实验中,VolCano充当分析器,提供基于推理路径的结论,这些结论由不同的判断者进行判断。根据表6的结果显示,一个更强大的判断模型可以更有效地利用VolCano生成的推理路径。当将VolCano用作分析器,将GPT-4用作判断者时,性能甚至超过了GPT-4V,两者之间的准确率甚至相差5.56%。
这表明VoCalno具有提供有效推理路径的能力,但其判断能力有限。此外,可以观察到VolCano的判断能力主要受限于骨干结构。总的来说,实验强调了语言骨干的重要性,并揭示了进一步将VoCoT应用于更强大LLM骨干的潜力。
总结
复旦团队提出了一种名为VoCoT的基于视觉的、以对象为中心的一种思维链格式,旨在辅助多模态大模型进行多步推理。此外,作者还提出了一种从现有资源构建VoCoT格式数据的流程,从而创建了VoCoT-Instruct-80K数据集。同时,基于此开发的VolCano模型在各项基准测试中展现了非常强劲的性能,在 7B 参数规模下,即使只使用了有限的输入分辨率,在需要复杂推理的任务中也超越了 SOTA 模型,包括 GPT-4V。