(survey)多模态 数据集

目录 #

Survey[0] #

  • Pre-training
  • Adaptation

Pre-training数据集 #

SFT数据集 #

  • LAMM
  • MultiIntruct

参考 #

survey #

  1. 多模态模型大常用数据集及处理策略:兼看Chatlaw法律问答中的知识图谱融合思路 《A Survey of Multimodal Large Language Model from A Data-centric Perspective》

预训练数据集 #

  1. 多模态数据集收集

  2. [论文阅读] 开源的多模态文档数据集,OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
    从网页文档里得到的数据集

  3. 超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能 ShareGPT4V git

1xx. 多模态预训练数据集

1xx. OpenDataLab

SFT数据集 #

1xx. 【LMM 015】LAMM:多模态指令微调数据集,框架和基准 1xx. [NeurIPS2023] LAMM:多模态指令微调数据集、框架、评测基准

1xx. Talk | ACL'23 杰出论文,MultiIntruct:通过多模态指令集微调提升VLM的零样本学习 1xx. 【ACL2023】MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning