
NVIDIA 新研究。 用 RL 对 agent 进行 post-training 效果很强,但成本高昂。 每次参数更新都需要完整的多轮 rollout 与环境交互,导致端到端 RL 在长 horizon 的 agentic 任务中成本极高。 这项研究提供了一个实用的折中方案。 论文提出 PivotRL——一个基于已有 SFT trajectory 运行的框架,将 SFT 的计算效率与端到端 RL 的 out-of-domain 保留能力结合起来。 与其跑完整 trajectory rollout,PivotRL 识别「pivot 点」——即采样动作呈现混合结果的关键中间轮次——只在这些高信号时刻上进行训练。 标准 SFT 会让 OOD 性能平均下降 9.83 点,而 PivotRL 几乎持平(+0.21),同时相比 base model 在域内平均提升 +14.11(SFT 仅 +9.94)。 在 SWE-Bench 上,PivotRL 用少 4 倍的 rollout 轮次、少 5.5 倍的实际训练时间,达到与端到端 RL 相当的准确率。 该方法已部署至生产环境,作为 NVIDIA Nemotron-3-Super-120B agentic post-training 的核心训练引擎。

这是一份不错的 Claude Code 速查表。
100 tweets · 45 sources