(原理)PPO
PPO训练中四种模型的合作关系
#
PPO训练中各模型的输入与输出
#
基于PPO进行RLHF训练的原理图
#
参考
#
第8部分:RLHF 与 RLAIF