(原理)Instruct Tuning

In Context Learning ( ICL ) 上下文学习 #

ICL

  • in context learning,大意是在prompt learning的基础上,将少量有标签样本融入prompt
  • 上图的ICL模型可以理解成有监督、无训练小样本学习
  • 并非所有ICL都不训练。比如下图右上角的FLAN就是用instruction tuning训练参数的。

ICL-tech

  • FLAN既属于 in context learning,也属于 instruction learning

Instruction Learning [1] #

Instruct Tuning- #

FLANv1, FLANv2

instructGPT #

chatGPT #

Instruction Tuning #

instructTuning

  • 对于已有的预训练模型,继续在多项任务(B、C、D等)上做训练,在其他任务(A)上做预测。虽然依然没见过任务A,但是根据对B、C、D等的训练,对A的效果有所提升; [1]

  • Instruct Tuning 本质上也是Prompt Tuning [2]

  • 研究了缩放对指令微调的影响 [3] 与微调指令的任务数量有关,任务数量越多效果越好 与模型的大小有关,模型越大效果越好

  • Prompt vs. Instruction Tuning [4] Prompt是去激发语言模型的补全能力,比如给出上半句生成下半句、或者做完形填空,都还是像在做language model任务. 而Instruction Tuning则是激发语言模型的理解能力,通过给出更明显的指令/指示,让模型去理解并做出正确的action Prompt tuning都是针对一个任务的,比如做个情感分析任务的prompt tuning,精调完的模型只能用于情感分析任务,而经过Instruction Tuning多任务精调后,可以用于其他任务的zero-shot

  • Instruction Tuning 指令微调 [4]

    • Self Instruction
      • Alpaca = LLaMA + Intruction Tuning [2]

Limitation of instruction finetuning [2] #

limitation 问题1. 开放性问题 问题2. 看图

参考 #

  1. 各种tuning的简单逻辑解释

  2. 第九课:Instruct Tuning *** V

  3. FLANv2:大模型指令微调必看论文

  4. Instruction Tuning|谷歌Quoc V.Le团队提出又一精调范式

1xx. June 2023, A Stage Review of Instruction Tuning

1xx. 【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

1xx. 如何优化大模型的In-Context Learning效果?

1xx. Instruction Tuning(FLAN、instructGPT、chatGPT)