(综述)多模态

论文[Foundational Models Defining] #

论文地址《Foundational Models Defining a New Era in Vision: A Survey and Outlook》大学

基础模型分类 [1] #

分类 {% asset_img ’’ %}

分类 {% asset_img ’’ %}

textually prompted models #

contrastive CLIP 双塔
generative Flamingo
hybrid BLIP
conversational GPT-4， miniGPT4, LLaVa

传统上，视觉语言模型主要用于需要同时理解视觉和文本模态的任务。然而，随着CLIP展示出的卓越性能，基于语言监督的模型在显著上升，并成为主流方法。在本节中，我们专注于探索依赖语言作为主要监督来源的方法。这些以文本为提示的模型可以广泛分为三种主要类型：对比、生成和混合方法。

visually prompted models #

Foundational SAM

heterogeneous models #

架构 [1] #

{% asset_img ’’ %}

论文[MM-LLMs] #

论文地址《MM-LLMs: Recent Advances in MultiModal Large Language Models》腾讯
开源地址 mm-llms 腾讯
解析解析

论文[MLLM] #

论文地址 A Survey on Multimodal Large Language Models A Survey on Multimodal Large Language Models 中国科学技术大学腾讯
开源地址 Repo

Arch [3.2] #

{% asset_img ’’ %}

类型[3.1] #

本文将最近具有代表性的MLLM分为4种主要类型：
- 多模态指令调整（MIT）
- 多模态上下文学习（M-ICL）
- 多模态思想链（M-CoT）
- LLM辅助视觉推理（LAVR）【类似agent】

参考 #

survey #

《Foundational Models Defining a New Era in Vision: A Survey and Outlook》视觉大模型的全面解析基础模型定义视觉的新时代：综述和展望万字长文带你全面解读视觉大模型
xxx
《A Survey on Multimodal Large Language Models》 v1 v2版本 3.1 MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来 v1版本 3.2 多模态大语言模型全面综述：架构，训练，数据，评估，扩展，应用，挑战，机遇 v2版本