WebSailor

论文 #

《WebSailor: Navigating Super-human Reasoning for Web Agent》阿里巴巴集团通义实验室

主要介绍了一种名为WebSailor的新型网页智能体(Web Agent),其在复杂信息寻求任务中展现了超越人类的推理能力。 以下是对文档的深度阅读总结,涵盖其核心问题、方法、实验及贡献。


一、研究背景与问题定义 #

1.1 信息寻求的挑战 #

  • 互联网时代的信息爆炸超越了人类认知极限(有限记忆、脆弱注意力、无法并行探索)。
  • 专有智能体系统(如OpenAI的Deep Research)已展现出超越人类的性能,但开源智能体仍存在巨大性能差距。

1.2 任务分级 #

论文将信息寻求任务分为三个级别:

  • Level 1:低不确定性任务(如单次搜索即可解决)。
  • Level 2:高初始不确定性但解决路径清晰(如标准多跳问答)。
  • Level 3(本文焦点):高不确定性且解决路径复杂、无预定义路径(如BrowseComp基准中的任务)。

1.3 性能差距根源 #

现有训练范式集中于Level 1–2任务,缺乏对Level 3复杂推理模式的暴露,导致模型无法发展出多步推理能力。


二、核心方法:WebSailor框架 #

2.1 训练数据合成(SailorFog-QA) #

a) 构建复杂知识图 #

  • 通过随机游走从真实网站中提取互联的知识结构,生成具有涌现式非线性结构的图。

b) 生成高不确定性问题 #

  • 采样多样化拓扑的子图(包含新颖的实体与关系组合)。
  • 信息模糊化处理(如将精确日期转为“2010年代初”,名称部分掩码等),强制智能体进行推理而非简单查找。

c) 优势 #

  • 数据基于真实互联网,贴合实际挑战。
  • 子图拓扑多样性自然产生需复杂推理模式(多步演绎、组合与比较分析)的问题。
  • 高度可扩展(子图数量随图规模非线性增长)。

2.2 推理轨迹重建 #

a) 问题 #

开源大型推理模型(LRM,如QwQ、DeepSeek-R1)能生成正确轨迹,但其原生推理输出冗长、风格化,直接用于微调会限制智能体的探索策略泛化能力,且长轨迹易超出上下文窗口限制。

b) 解决方案 #

  1. 用LRM生成完整动作-观察序列(丢弃原生冗长思考)。
  2. 用另一指令遵循模型(如Qwen-2.5-72B)为每一步动作重建简洁、目标导向的思考(“短链思维”风格),形成高质量监督信号。

2.3 训练流程优化 #

a) 冷启动(RFT) #

  • 必要性:RL奖励稀疏(初始近零反馈),且蒸馏依赖低(仅需2k+高质量样本)。
  • 过滤:保留正确轨迹、长度<32k token、工具调用>5次(确保复杂性)。
  • 训练目标:增强决策能力(掩码环境观察的损失计算)。

b) 强化学习(DUPO算法) #

  • 挑战:多轮推理与工具使用导致训练缓慢。
  • 创新:复制采样策略优化(训练前过滤全正确样本,训练中复制同一批次内标准差非零的样本),提速2–3倍。
  • 奖励设计:结合格式验证(0.1权重)和答案验证(0.9权重),避免奖励黑客。

三、实验结果 #

3.1 基准测试 #

  • BrowseComp-en/zh:最具挑战性的网页浏览基准,需复杂策略。
  • GAIA:需多模态与工具使用(仅用文本子集)。
  • Xbench-DeepSearch:动态深度搜索基准。

3.2 性能对比 #

  • WebSailor(3B/7B/32B/72B)在所有开源模型与智能体方法中领先,且超越部分结合浏览能力的专有LRM(如Grok-3、Doubao)。
  • WebSailor-72B在BrowseComp-zh上与Doubao持平,虽仍落后于DeepResearch(SOTA),但显著缩小了开源与专有系统的差距。
  • 向下兼容性:在简单任务(如SimpleQA)上也表现优异。

3.3 关键分析 #

  • 数据复杂性:SailorFog-QA的工具调用分布与BrowseComp-en高度相似(长尾、多>5次调用),而WebDancer数据集中>50%仅需2次调用。
  • RL有效性:RL训练显著提升Pass@1性能(尤其BrowseComp),增强样本效率与稳定性。
  • 冷启动必要性:无冷启动的RL模型工具调用数更低,无法掌握长视距推理,性能差距大。

四、局限与未来工作 #

  1. 上下文长度限制(32k token)可能制约更复杂问题的解决。
  2. 过度思考倾向:对简单问题也进行多步工具调用(但常为交叉验证,非无意义探索)。
  3. 训练效率:同步RL框架低效(仅50步),未来将转向异步训练。

五、结论 #

WebSailor通过合成高不确定性数据、重建简洁推理轨迹、以及RFT冷启动与DUPO算法,实现了开源智能体在复杂信息寻求任务上的突破性进展,证明了开源模型可达到接近专有系统的性能。未来将继续探索更复杂任务与高效RL训练,以追求更广泛的“超人类”性能。


附录与案例 #

文档还提供了:

  • 工具细节(search、visit);
  • QA构建流程;
  • 训练超参数;
  • 完整轨迹案例(如BrowseComp-en中关于Joey Hess的查询),展示多步推理与工具调用的实际应用。

总结 #

该研究在数据合成、推理重建和训练优化方面均有显著创新,为开源社区提供了可复现的高性能网页智能体方案,推动了对“超人类推理”能力的探索。

参考 #