(原理)SFT 数据组合 *

论文 #

  • 论文地址 《HOW ABILITIES IN LARGE LANGUAGE MODELS ARE AFFECTED BY SUPERVISED FINE-TUNING DATA COM- POSITION》
    keyword: SFT 数据组合

问题[1] #

1、推理、编码和通用能力如何随SFT数据量而变化?
2、在SFT中结合三种能力时是否存在性能冲突?
3、导致性能冲突的关键因素是什么?
4、不同的SFT策略对组合数据有什么影响?

实验结果[1] #

1、不同的能力表现出不同的扩展模式,在数据量相同的情况下,较大的模型通常表现出更优越的性能
2、随着数据量的持续增加,数学推理和代码生成能力也在不断提高一般能力则是在样本数达到一千左右时才得到提升,且提升速度较慢。
3、在数据量较低的情况下,数据组合会带来各种能力的提高,而在数据量较高的情况下,能力则会发生冲突
4、组成数据量会影响性能,而组成比例的影响则微乎其微

【模型大小】

【数据数量】

【数据数量 <–> 多样性】?

【组成比例】

问题2 在SFT中结合三种能力时是否存在性能冲突?[kimi][paper] #

问题2 探讨的是在监督式微调(Supervised Fine-Tuning, SFT)中结合推理、编码和通用能力时是否存在性能冲突。

结论: #

  1. 性能冲突的存在:在高资源设置下,即当SFT数据集混合使用时,不同能力领域(如数学推理、编码和通用对齐能力)之间会发生性能冲突。然而,在低资源设置下,混合数据源能够提升性能。
  2. 性能冲突与资源量的关系:随着数据量的增加,特定任务的性能可能会因为其他任务的存在而下降。这表明在数据量较大时,不同任务之间可能会相互干扰,导致性能冲突。
  3. 模型大小对性能的影响:随着模型大小的增加,在低资源设置下,数学和通用能力的性能提升更加明显。

问题3 导致性能冲突的关键因素是什么?[kimi][paper] #

在SFT(监督式微调)中结合推理、编码和通用能力时,导致性能冲突的关键因素包括:

  1. 数据组成和比例:当不同能力领域的数据混合在一起进行SFT时,如果数据量充足,来自其他领域的数据可能会被视为噪声,从而影响特定领域的性能。
  2. 模型大小较大的模型在相同数据量下通常表现更好,并且在低资源设置下对于数学和通用能力的性能增益更大。
  3. 训练策略:多任务学习虽然能够保留专业能力,但对通用能力的伤害最大;而顺序训练和混合顺序训练虽然保留了通用能力,但会丢失太多的专业能力。
  4. 数据量与能力的关系:数学推理和编码能力随着数据量的增加而持续提高,而通用能力在大约一千个样本后趋于平稳。
  5. 任务特性差异:推理和编码任务需要复杂的逻辑来分解任务指令和处理非语言和符号特征,而对齐人类意图则需要多样性和理解模糊的人类指令。

相应的结论包括:

  • 低资源设置下,混合数据源可以提高性能,但在高资源设置下,可能会导致性能下降
  • 数据量直接影响力能表现,而数据比例的影响不显著
  • 提出的双阶段混合微调(DMT)策略有效地减轻了多任务学习中的性能冲突和顺序训练中的灾难性遗忘,实现了通用与专业能力之间的平衡。

这些结论强调了在SFT阶段理解和解决数据组成问题对于全面提高LLMs(大型语言模型)的能力至关重要。

参考 #

  1. SFT微调的数据组合及训练策略如何影响大模型性能:4个经典问题及实验结论分享

1xx. 再看大模型微调与应用:3大行业18个开源垂直微调模型、微调数据、工具资源及有趣的AIGC应用集合 二 三

1xx. 也谈大模型研发中的微调数据规模评估与质量问题:数据规模大小的影响评估、数据主要问题及清洗项目

1xx. 也谈微调数据质量、多样性规模对大模型性能的影响与评估方案:Belle项目开源实验工作报告介绍