力压Transformer?首个通用Mamba开源大模型一鸣惊人

玩数据还有点懒 2024-08-13 21:12:39

Mamba架构模型这次终于要「站」起来了?自2023年12月首次推出以来,Mamba便成为了Transformer的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于Mamba架构的开源大模型Codestral 7B。

首个通用大规模Mamba模型

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。

为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。

大语言模型(LLMs)受限于仅通过语言进行交互,限制了它们处理更多样化任务的适应性。多模态理解对于增强模型有效应对现实世界挑战的能力至关重要。因此,研究人员正在积极努力扩展大型语言模型,以纳入多模态信息处理能力。视觉 - 语言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已经被开发出来,以增强 LLMs 的视觉理解能力。

然而,先前的研究主要尝试以类似的方法获得高效的 VLMs,即在保持基于注意力的 Transformer 结构不变的情况下减少基础语言模型的参数或视觉 token 的数量。本文提出了一个不同的视角:直接采用状态空间模型(SSM)作为骨干网络,得到了一种线性计算复杂度的 MLLM。此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态 Mamba。

具体来说,本文采用 Mamba 语言模型作为 VLM 的基础模型,它已经显示出可以与 Transformer 语言模型竞争的性能,但推理效率更高。测试显示 Cobra 的推理性能比同参数量级的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使与参数数量更多的 LLaVA v1.5 模型(7B 参数)相比,Cobra 仍然可以在参数数量约为其 43% 的情况下在几个基准测试上实现可以匹配的性能。

新架构Mamba引爆AI圈

自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加 32 倍时,计算量可能会增长 1000 倍,计算效率非常低。

为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但这往往以牺牲其有效性特为代价。到目前为止,这些变体都还没有被证明能在不同领域发挥有效作用。

Mamba架构的核心优势在于其线性时间推理能力,这意味著能在处理序列数据时,无论序列长度如何增长,推理时间都能保持线性增长,而非指数级的膨胀。

这一点与传统的Transformer架构形成了鲜明对比,它在处理长序列时,由于自注意力机制的计算复杂度,会面临计算成本随序列长度增加而急剧上升的问题。Mamba架构的这一特性使得它在处理大规模数据集和长序列时更加高效,为实时交互和大规模数据处理提供了可能

在计算效率上,Mamba通过改进的注意力机制,减少了处理序列数据所需的计算量。这种机制不仅加快了数据处理速度,而且提高了数据访问的效率。

Mamba在内存使用上进行了优化,这对于移动设备和边缘计算等资源受限的场景尤为重要,确保了即使在硬件条件有限的情况下,模型也能顺畅运行。

Mamba架构的另一个显著优势是其出色的可扩展性,允许模型更容易地扩展到更大的尺寸,而不会牺牲性能。这一点对于那些需要处理更复杂任务和更大模型的应用来说,是一个巨大的吸引力。

所以,Mamba架构不仅能够加快模型的训练速度,减少迭代和实验的时间,还能在推理时提供更低的延迟,这对于需要实时响应的应用场景至关重要。

此外,Mamba架构在保持或提高模型性能的同时,减少了所需的计算资源,这对于中小型企业、个人开发者来说帮助非常大,同时可以在更小的硬件上运行。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:8

玩数据还有点懒

简介:感谢大家的关注