AREAL partial-rollout

Mon, 01 Jan 0001 00:00:00 +0000

AReaL 中的 Off-policyness 与 Partial Rollouts 实现详解 #

概述 #

AReaL 框架通过异步推理和训练分离的架构，实现了高效的分布式 RL 训练。在这个过程中，核心挑战是如何处理：

Off-policyness（策略过时性）：推理引擎使用的模型版本可能落后于训练引擎的版本
Partial Rollouts（部分轨迹）：单个生成序列可能跨越多个模型版本

本文将深入分析 AReaL 如何通过 StalenessManager、版本跟踪机制和 WorkflowExecutor 来管理这些问题。

1. Off-policyness 控制机制 #

1.1 配置参数 #

AReaL 通过 max_head_offpolicyness 参数控制允许的最大版本差：

rollout:
  max_head_offpolicyness: 4  # 允许推理版本最多落后训练版本 4 步

关键配置说明：

0：同步 RL（推理和训练完全同步，用于调试）
2-8：典型异步范围（根据模型大小和更新频率调整）
更高值：提高吞吐量，但可能降低训练稳定性

1.2 StalenessManager 核心实现 #

StalenessManager 是控制 off-policyness 的核心组件，位于 areal/core/staleness_manager.py。

1.2.1 容量计算公式 #

def get_capacity(self) -> int:
    """计算可用的新 rollout 槽位数量"""
    with self.lock:
        current_version = self.version_provider.get_version()  # 获取当前训练版本
        
        # 并发限制容量
        max_concurrent_rollouts = max(1, self.max_concurrent_rollouts)
        concurrency_capacity = max_concurrent_rollouts - self.rollout_stat.running
        
        # 过时性限制容量
        ofp = self.max_staleness  # max_head_offpolicyness
        sample_cnt = self.rollout_stat.accepted + self.rollout_stat.running
        consumer_bs = max(1, self.consumer_batch_size)
        staleness_capacity = (ofp + current_version + 1) * consumer_bs - sample_cnt
        
        # 返回两者的最小值
        capacity = min(concurrency_capacity, staleness_capacity)
        return capacity

容量计算逻辑：