(survey)多模态数据集

目录 #

Survey[0] #

Pre-training
Adaptation

Pre-training数据集 #

LAION[1] LAION
wukong[1] [论文]中文多模态数据集WuKong & FILIP & LiT-tuning Wukong：一亿规模的中文跨模态预训练基准
MMDialog 百万量级的多模态对话数据集来了，153万张图片4000多主题
OBELISC[2]
ShareGPT4V[3] opensource

SFT数据集 #

LAMM
MultiIntruct

参考 #

survey #

多模态模型大常用数据集及处理策略：兼看Chatlaw法律问答中的知识图谱融合思路《A Survey of Multimodal Large Language Model from A Data-centric Perspective》

预训练数据集 #

1xx. 多模态预训练数据集

1xx. OpenDataLab

SFT数据集 #

1xx. 【LMM 015】LAMM：多模态指令微调数据集，框架和基准 1xx. [NeurIPS2023] LAMM：多模态指令微调数据集、框架、评测基准

1xx. Talk | ACL'23 杰出论文，MultiIntruct：通过多模态指令集微调提升VLM的零样本学习 1xx. 【ACL2023】MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning