(综述)多模态

论文[Foundational Models Defining] #

  • 论文地址 《Foundational Models Defining a New Era in Vision: A Survey and Outlook》大学

基础模型分类 [1] #

  • 分类 {% asset_img ’’ %}

pattern.webp

  • 分类 {% asset_img ’’ %}

pattern1.webp

textually prompted models #

  • contrastive CLIP 双塔
  • generative Flamingo
  • hybrid BLIP
  • conversational GPT-4, miniGPT4, LLaVa

传统上,视觉语言模型主要用于需要同时理解视觉和文本模态的任务。然而,随着CLIP展示出的卓越性能,基于语言监督的模型在显著上升,并成为主流方法。在本节中,我们专注于探索依赖语言作为主要监督来源的方法。这些以文本为提示的模型可以广泛分为三种主要类型:对比、生成和混合方法。

visually prompted models #

  • Foundational SAM

heterogeneous models #

架构 [1] #

{% asset_img ’’ %}

arch.webp


论文[MM-LLMs] #

  • 论文地址 《MM-LLMs: Recent Advances in MultiModal Large Language Models》 腾讯

  • 开源地址 mm-llms 腾讯

  • 解析 解析


论文[MLLM] #

Arch [3.2] #

{% asset_img ’’ %}

arch2.png

类型[3.1] #

  • 本文将最近具有代表性的MLLM分为4种主要类型:
    • 多模态指令调整(MIT)
    • 多模态上下文学习(M-ICL)
    • 多模态思想链(M-CoT)
    • LLM辅助视觉推理(LAVR)【类似agent】

参考 #

survey #

  1. 《Foundational Models Defining a New Era in Vision: A Survey and Outlook》 视觉大模型的全面解析 基础模型定义视觉的新时代:综述和展望 万字长文带你全面解读视觉大模型

  2. xxx

  3. 《A Survey on Multimodal Large Language Models》 v1 v2版本 3.1 MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来 v1版本 3.2 多模态大语言模型全面综述:架构,训练,数据,评估,扩展,应用,挑战,机遇 v2版本