(原理)PPO

PPO训练中四种模型的合作关系 #

PPO训练中四种模型的合作关系

PPO训练中各模型的输入与输出 #

PPO训练中各模型的输入与输出

基于PPO进行RLHF训练的原理图 #

基于PPO进行RLHF训练的原理图

参考 #

第8部分:RLHF 与 RLAIF