LLM 算法

DeepLearning
机器学习
- 机器学习-数据
- 机器学习-模型
Agent
强化学习
- Core
LLM

unified paradigm

RL unified paradigm
- - RL unified paradigm
  - DPO
  - PPO
  - GRPO
参考

RL unified paradigm #

RL unified paradigm #

DPO #

PPO #

GRPO #

参考 #

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

RL unified paradigm
- - RL unified paradigm
  - DPO
  - PPO
  - GRPO
参考