BLIP-2

BLIP-2 #

Overview [1] #

用一个Qformer来提取图像特征（等同与Flamingo的perceiver resampler），然后用cross- attention进行多模态交互，此时视觉编码器和LLM都会被冻结，只训练Qformer，而在下游任务微调时，可以再解锁视觉编码器，让它跟Qformer一起训练

两阶段的训练策略 [1] #

BLIP-2设计了两阶段的训练策略，以使视觉编码器能学会提取更关键的信息。

第一阶段：使用多种预训练任务，如Image-Text Contrastive Learning(ITC)，Image-grounded Text Generation(ITG)，Image-Text Matching(ITM)让Qformer学会如何从视觉编码器中抽取文本相关的特征。
第二阶段，将Qformer插入到LLMs中，用language modeling进行训练。

架构[3] #

两个阶段训练
- 阶段一获得高质量的 图文对齐向量表征 通过ITC ITM ITG 三个损失函数获得了很好的图片文本 对齐向量表征能力，仅训练Qformer中很少的参数【ITM: image-text 是否是匹配的 | image 和text 都能相互看到】【ITG: image生成text | image 能全看到, text只能逐个的看】【ITC: image和text的对比学习, 对比学习分类分错了的送入ITM 负样本 | image和 text 之间是不能看到的】
- 阶段二通过向量表征进行文字生成

code [2] #

参考 #

blip2 #

1xx. AI论文精读之多模态大模型BLIP-2 V

1xx. MiniGPT-4实现原理及其核心BLIP2模型实践：从代表性图文对数据集、BLIP2模型结构到调用实践 *

1xx. BLIP2：下一代多模态模型的雏形