论文 #

ToolRL: Reward is All Tool Learning Needs

为了确定最佳奖励策略，探索了四个关键维度的各种奖励配置：(1) 奖励类型（奖励哪些方面），(2) 奖励尺度（奖励多少），(3) 奖励粒度（奖励信号的详细程度），以及 (4) 奖励动态（奖励如何随时间演变）。通过大量的实验确定了最符合主体工具使用情况的奖励设计，并揭示了奖励对于调用工具的 LLM 而言“有用”的原因。论文得出的核心见解总结如下：

推理轨迹越长并不一定越好，而且过长的奖励可能会降低性能。
动态奖励尺度有助于模型从简单行为平稳过渡到复杂行为。
细粒度的奖励分解可实现更稳定、更有效的学习。

method

论文得出的核心见解总结如下：

推理轨迹越长并不一定越好，而且过长的奖励可能会降低性能。
动态奖励尺度有助于模型从简单行为平稳过渡到复杂行为。
细粒度的奖励分解可实现更稳定、更有效的学习。

Format Reward

Correctness Reward

参考 #

2025年大模型agent rl训练多轮planning技术TORL,ToolRL, RAGEN,OTC,SkyRL-v0, GiGPO,Tool-N1 ,ARTIST, ZeroTIR, GRPO