LoRA引领多模态模型革命,大模型的微调方案

基于LoRA微调多模态大模型

随着 ChatGPT 的火爆，大模型时代降临，普通人难以进行全量微调。

参数高效微调技术应运而生，为科研人员和开发者提供了微调大模型的机会。

用 LoRA 微调 2.7B 参数的 blip2-opt 模型，提升图生文能力，带来高效的视觉语言对齐。

数据集和模型准备

该虚拟数据集提供 6 位足球运动员的图像，附有详细文字说明，可用于微调图像描述模型。

访问数据集：huggingface.co/datasets/ybelkada/football-dataset

由 OPT-2.7B 训练的 BLIP-2 模型，包含三个强大组件：

* 视觉 Transformer：提取图像特征

* 语言模型：生成丰富描述

* 联合嵌入器：关联视觉和语言

此模型已在 Hugging Face 上提供，可通过以下链接下载：/huggingface.co/Salesforce/blip2-opt-2.7b

BLIP-2 简介

BLIP-2 是一种多模态 AI 模型，凭借预训练优势，在视觉和语言任务上表现卓越。

该模型的架构包括一个图像编码器（提取视觉特征），一个大型语言模型（生成语言）和一个可学习的 Q-Former（融合视觉和语言表征）。

BLIP-2 融合了视觉和语言理解，提供强大的多模态能力。它的预训练机制降低了训练成本，提升了模型效果，使其在各种任务中大显身手。

Image Encoder：负责从输入图片中提取视觉特征。Large Language Model：负责文本生成。Q-Former巧妙地融合了视觉和语言模态，通过共享自注意力层，Image Transformer 和 Text Transformer两个子模块实现了跨模态交互。这种创新架构有效缩小了两种模态之间的鸿沟，实现了跨模态理解的显著提升。借助图像编码器，Image Transformer 提取视觉特征。可学习 Query 通过自注意力层交互，并通过交叉注意力层与冻结图像特征融合。它还可以通过共享的自注意力层与文本交互，实现图像和文本的深度融合，从而提升图像理解能力。Text Transformer兼具文本编码和解码功能，其自注意力层与Image Transformer共享。根据预训练任务的不同，采用不同的自注意力掩码，精准控制Query与文本的交互方式。

BLIP-2 使用了一种两阶段预训练方法，称为 Q-Former，以克服冻结预训练模型导致视觉和语言特征不一致的问题。在表示学习阶段，模型学习对齐视觉和文本特征的表示。接续的生成学习阶段利用这些表示来生成文本描述，从而加强跨模态对齐。

表示学习阶段

Q-Former模型创新性地将冻结的图像编码器连接到学习阶段，利用图像-文本对进行训练。通过优化预训练目标，该模型采用差异化的注意力掩码策略，控制图像和文本 Transformer 之间的交互。这种方法使 Q-Former 能够更有效地捕捉图像和文本之间的联系，从而在学习阶段取得卓越的性能。

生成学习阶段

Q-Former 通过连接到 LLM，利用其语言生成能力。预训练阶段中，全连接层将视觉表示投影到与 LLM 文本嵌入相同的维度，并将其添加到输入文本嵌入中。Q-Former 的预训练使其能够过滤视觉信息，提取与语言相关的关键特征，充当信息瓶颈。这简化了 LLM 学习视觉语言对齐，提高了模型效率。

先预先准备Processor、模型和图像输入。

from PIL import Image

import requests

from transformers import Blip2Processor, Blip2ForConditionalGeneration

import torch

device = "cuda" if torch.cuda.is_available() else "cpu"

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")

model = Blip2ForConditionalGeneration.from_pretrained(

"Salesforce/blip2-opt-2.7b", load_in_8bit=True, device_map={"": 0}, torch_dtype=torch.float16

) # doctest: +IGNORE_RESULT

url = "http://images.cocodataset.org/val2017/000000039769.jpg"

image = Image.open(requests.get(url, stream=True).raw)

对于图像描述生成任务示例如下：

inputs = processor(images=image, return_tensors="pt").to(device, torch.float16)

generated_ids = model.generate(**inputs)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()

print(generated_text)

# two cats laying on a couch

对于视觉问答任务（VQA）示例如下：

prompt = "Question: how many cats are there? Answer:"

inputs = processor(images=image, text=prompt, return_tensors="pt").to(device="cuda", dtype=torch.float16)

generated_ids = model.generate(**inputs)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()

print(generated_text)

# two

LoRA 简介

LoRA 技术巧妙利用低秩分解模拟模型参数变更，以极少参数量间接训练大模型。详细技术原理和实战教程请参考过往文章。

大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA大模型参数高效微调技术实战（五）-LoRA模型微调

优化代码，改进精度！

我们的微调代码现可从 GitHub 的 llm-action 项目获取，具体位于 blip2_lora_int8_fine_tune.py 文件中。关键步骤包括：

- 将模型精度调整为 8 位整数。

- 微调模型以提升性能。

访问 GitHub 即可获取详细代码并提升您的模型表现。

第一步，加载预训练Blip-2模型以及processor。

from transformers import AutoModelForVision2Seq, AutoProcessor

# We load our model and processor using `transformers`

model = AutoModelForVision2Seq.from_pretrained(pretrain_model_path, load_in_8bit=True)

processor = AutoProcessor.from_pretrained(pretrain_model_path)

通过 LoRA 微调策略创建自定义配置，并利用 get_peft_model 方法扩展基础 Transformer 模型，提升微调性能，量化模型参数，优化模型大小。

from peft import LoraConfig, get_peft_model

# Let's define the LoraConfig

config = LoraConfig(

r=16,

lora_alpha=32,

lora_dropout=0.05,

bias="none",

)

# Get our peft model and print the number of trainable parameters

model = get_peft_model(model, config)

model.print_trainable_parameters()

第三步，进行模型微调。

# 设置优化器

optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)

device = "cuda" if torch.cuda.is_available() else "cpu"

model.train()

for epoch in range(11):

print("Epoch:", epoch)

for idx, batch in enumerate(train_dataloader):

input_ids = batch.pop("input_ids").to(device)

pixel_values = batch.pop("pixel_values").to(device, torch.float16)

outputs = model(input_ids=input_ids, pixel_values=pixel_values, labels=input_ids)

loss = outputs.loss

print("Loss:", loss.item())

loss.backward()

optimizer.step()

optimizer.zero_grad()

if idx % 10 == 0:

# 根据图像生成文本

generated_output = model.generate(pixel_values=pixel_values)

# 解码

print(processor.batch_decode(generated_output, skip_special_tokens=True))

最后，保存训练的Adapter模型权重及配置文件。

model.save_pretrained(peft_model_id)

模型推理

使用 LLM-Action，轻松实现图生文！

只需运行 CUDA_VISIBLE_DEVICES=0 python blip2_lora_inference.py，即可使用先进的 LLM-Action 模型进行图生文，为您提供准确而有创意的文本描述。

代码详情请访问 GitHub 上的 llm-action 项目，了解 blip2_lora_inference.py 文件中的详细说明。

结语

基于 LoRA 微调，优化 BLIP-2 多模态大模型的文本生成能力，提升文本流畅性和信息丰富度，助力文本创作提质增效。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

世良情感网

LoRA引领多模态模型革命,大模型的微调方案

薪科技快评