LLMs的背景[1] #

Pre-training[1] #

本质上，指令微调是在自然语言格式的实例（instance）集合上微调预训练后的 LLM 的方法 [62]。

指令微调后，LLM 可以展现出泛化到未见过任务的卓越能力 [28, 62, 64]，即使在多语言场景下也能有不错表现 [98]。

总的来说，指令多样性似乎比实例数量更重要

平衡数据分布 一种广泛使用的方法是实例比例混合策略 [87]，即将所有数据集合并，然后从混合数据集中按比例采样每种实例。此外，根据最近的研究发现 [64, 99]，提高高质量数据集（例如 FLAN [62] 和 P3 [209]）的采样比例通常可以带来性能提升。
结合指令微调和预训练为了使微调过程更加有效和稳定，OPT-IML [99] 在指令微调期间加入了预训练数据，这可以看作是对模型的正则化（regularization）。

具体而言，GLM-130B [97] 和 Galactica [34] 将指令格式数据集作为预训练语料库的一小部分来预训练 LLM，这有可能同时获得预训练和指令微调的优势。

性能改进最近的研究在多个规模上（从 7700 百万到 5400 亿不等）对 LM 进行了实验，表明不同规模的模型都可以从指令微调中受益 [64, 216]，随着参数规模的增加，性能也得到了提升 [98]。【普适性】

此外，经过指令微调的较小模型甚至可以比未经微调的较大模型表现更好 [28, 64]。