Flamingo[1] #

它在Frozen模型的基础上做进一步的改进，不同点主要有两个：一是使用了更大的LLMs，二是冻结视觉编码器，引入perceiver resampler和XAttn-Dense两个适配单元作为可训练的模块。

perceiver resampler：类似DETR，通过设计多个Perceiver Resampler来生成64个固定长度的tokens，主要作用在于可以从图像中提取固定长度的特征向量，能够解决图像甚至多帧视频的feature map不一致的问题。【图像和文本对齐】
XAttn-Dense：在每一层LLM上都会增加corss- attention以入到LLM中与视觉向量进行交互，融合多模态信息。【融合】

参考 #