(综述)大模型

LLMs的背景[1] #

Scaling law of LLMs #

  • KM scaling law
  • Chinchilla Scaling law

LLMs的涌现能力 #

  • in-context learning
  • instruction following
  • step-by-step reasoning

大语言模型的关键技术 *** #

  • Scaling
  • Training
  • Ability Eliciting
  • Alignment Tuning
  • Tool Manipulation

Pre-training[1] #

数据收集 #

架构 #

模型训练 *** #

  • 优化设置

    • Batch Training
    • Learning Rate
    • Optimizer
    • Stabilizing the Training
  • 可扩展的训练技巧

    • 3D并行 数据并行 + 流水线并行 + 张量并行
    • ZeRO
    • 混合精度训练
    • 总体训练建议

Adaptation Tuning of LLMs[1] #

指令调优 *** #

本质上,指令微调是在自然语言格式的实例(instance)集合上微调预训练后的 LLM 的方法 [62]。

指令微调后,LLM 可以展现出泛化到未见过任务的卓越能力 [28, 62, 64],即使在多语言场景下也能有不错表现 [98]。

格式化实例的构建 #
  • 格式化已有数据集
  • 格式化人类需求
  • 构建实例的关键因素
    • 增加指令
    • 设计格式

总的来说,指令多样性似乎比实例数量更重要

指令微调策略 #
  • 平衡数据分布 一种广泛使用的方法是实例比例混合策略 [87],即将所有数据集合并,然后从混合数据集中按比例采样每种实例。 此外,根据最近的研究发现 [64, 99],提高高质量数据集(例如 FLAN [62] 和 P3 [209])的采样比例通常可以带来性能提升

  • 结合指令微调和预训练 为了使微调过程更加有效和稳定,OPT-IML [99] 在指令微调期间加入了预训练数据,这可以看作是对模型的正则化(regularization)。

具体而言,GLM-130B [97] 和 Galactica [34] 将指令格式数据集作为预训练语料库的一小部分来预训练 LLM,这有可能同时获得预训练和指令微调的优势。

指令微调的效果 #
  • 性能改进 最近的研究在多个规模上(从 7700 百万到 5400 亿不等)对 LM 进行了实验,表明不同规模的模型都可以从指令微调中受益 [64, 216],随着参数规模的增加,性能也得到了提升 [98]。 【普适性】

此外,经过指令微调的较小模型甚至可以比未经微调的较大模型表现更好 [28, 64]

  • 任务泛化性 todo

对齐调优 #

高效调优 #

参考 #

  1. 大语言模型综述 中文 v10
    大语言模型综述 中文
    LLMSurvey Repo git
    [论文]大语言模型综述
    详谈大模型训练中的数据收集、处理与模型影响:A Survey of Large Language Models工作中的数据总结
    大模型综述-A Survey of Large Language Models

1xx. 值得一看的大模型最新综述:兼看多语种大模型微调数据集Aya

1xx. 43页预训练模型综述(清华、复旦、人大)