研究论文报告:《Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses》
2. 这项工作如何融入更广泛的研究领域
“Harness-1”中提出的工作属于不断发展的检索增强语言模型和智能搜索领域,尤其侧重于应用强化学习(RL)来训练搜索智能体。
当前方法通常将搜索代理概念化为与检索工具交互的大型语言模型(LLM)。这些代理生成查询、处理返回的证据、识别缺失的信息,并为后续任务选择文档。这种范式常见于迭代检索、主动检索和工具使用训练。然而,作者指出了一种局限性:这种模型通常会使 LLM 策略同时承担语义搜索决策和常规状态管理(例如,跟踪已查看的文档、有用证据、剩余约束或已验证的声明)的双重职责。这种双重职责会导致强化学习训练效率低下和学习过程条件不佳,尤其是在搜索记录数量不断增长的情况下。
强化学习已被越来越多地应用于训练逻辑学习模型(LLM),以使其能够与搜索引擎和检索系统进行交互,从而提升查询生成、多轮搜索以及整体检索效用。然而,大多数现有的检索代理训练方法仍然要求模型在学习语义搜索行为的同时学习状态管理。当策略必须从仅包含附加信息的文本记录中重建完整的有效搜索状态时,学习可能会变得条件性较差。例如,难度较高的查询可能会产生类似的空集奖励,庞大的工具词汇表可能会导致重复的搜索调用,而跨文档结构在文本记录中可能过于分散而无法可靠地利用。
本文引入了“有状态认知卸载”的概念,该概念与更广泛的“工具工程”领域相契合。工具工程强调设计用于协调语言模型与其任务之间交互的环境层,并证明界面本身可以显著影响智能体的行为和性能。传统的工具编排通常涉及固定界面,然后在界面内训练策略,而Harness-1则提出通过使界面具有状态来从根本上改变界面。这使得重点不再仅仅是教会策略更有效地使用固定工具,而是设计一个能够主动维护可恢复搜索状态的环境,从而简化策略的学习任务。
这项工作区别于以往的智能体搜索系统,例如 ReAct、Self-Ask 和 IRCoT。这些系统虽然建立了推理和工具调用交替的模式,但往往发现仅靠提示会产生不一致的行为模式。尽管强化学习 (RL) 已成为塑造智能体搜索中逻辑逻辑推理的强大技术(例如 DeepRetrieval、Search-R1 和 s3),但许多此类系统仍然采用相对“单薄”的工具封装。这意味着任何超出简单动作的复杂状态都必须由策略从原始观测流中重建。早期的工作 Context-1 开始通过允许智能体在搜索过程中修剪自身上下文来解决上下文管理问题。Harness-1 对此进行了扩展,使 Harness 本身负责搜索状态的持久化和结构化维护,并认为这种设计选择对于有效的检索智能体强化学习至关重要。
3. 主要目标和动机
本研究的主要目标是开发并评估 Harness-1,这是一个 200 亿搜索代理,它在一个复杂的、有状态的搜索框架内,通过强化学习 (RL) 进行训练。该设计旨在通过策略性地将语义搜索决策(由策略处理)与常规状态管理(由环境侧框架处理)分离,从而显著提高检索性能。
这种方法的动机源于当前搜索代理(通常基于大型语言模型 (LLM))在训练和运行方面存在的一些局限性:
- 逻辑学习模型策略负担过重: 现有模型要求逻辑学习模型策略既要做出高层语义搜索决策(例如,发出什么查询、保留哪些文档),又要执行复杂的底层记账工作。这些记账工作包括记住先前看到的文档、识别有用证据、跟踪未满足的约束条件以及记录已验证的声明。这种双重职责消耗了宝贵的模型容量,并使学习过程变得复杂。
- 低效的强化学习训练: 当策略被迫从不断增长且仅追加的搜索记录中重建搜索状态时,强化学习训练就会变得效率低下。状态管理的复杂性会导致学习环境条件不佳。例如,许多早期针对复杂查询的尝试可能会产生相同的“空集”奖励,几乎无法为智能体提供任何可区分的信号进行学习。类似地,如果智能体无法有效地管理其状态,庞大的工具词汇表可能会导致重复且低效的搜索调用。
- 分散的信息: 重要的跨文档结构或联系可能存在于大量的记录中,但对于政策而言,这些信息过于分散,无法可靠地提取和利用。
- 模糊的奖励信号: 当搜索过程最终得到的结果集不尽如人意(例如,为空或错误)时,奖励信号往往无法明确指出失败的根本原因,例如语义搜索不佳、证据遗漏、验证不足或筛选不力。这种模糊性阻碍了策略学习并改进其行为的能力。
为了解决这些问题,作者提出了 有状态认知卸载(stateful cognitive offloading)的 概念。该原则认为,检索策略应专注于高层语义决策,例如确定下一个搜索查询、决定保留或丢弃哪些文档、识别需要验证的声明以及判断何时终止搜索。同时,框架(环境层)应负责维护与这些决策相关的可恢复且显式的状态。该状态包括候选文档池、带有重要性标签的精选集、精简的证据链接、验证记录、压缩和去重后的观测结果以及上下文感知的信息渲染。通过将这些机械的记账任务卸载到框架,强化学习(RL)智能体可以获得一个稳定且显式的接口来改进其搜索行为,而无需将其优化预算浪费在重新发现隐式状态管理上。
此外,该研究还确定了设计有利于有效策略训练的状态搜索工具的三个具体要求:
- 热启动数据集筛选: 为了提供初始学习信号,该工具应根据首次成功搜索自动生成一个暂定的数据集。这避免了早期部署始终生成空数据集的情况,从而为早期策略探索提供更清晰的区分。
- 紧凑型派生状态渲染: 该框架必须将派生状态(例如,证据图)紧凑地渲染成观察结果,以防止其变得过于冗长,并与策略有限的上下文窗口中的直接证据竞争。
- 保持多样性的激励机制: 强化学习的奖励机制必须鼓励均衡地进行各种不同的行动(搜索、整理、审核、验证)。如果没有这样的激励机制,策略可能会选择最简单的奖励路径,最终演变成一种狭隘的、过度依赖搜索的策略,而忽略了至关重要的整理和验证步骤。
这些动机和目标共同旨在通过重新思考 LLM 政策与其运行环境之间的接口和劳动分工,开发一个更高效、更稳健、更具普适性的搜索代理。
4. 方法论和途径
Harness-1 被实现为一个 20B 搜索代理,它基于
gpt-oss-20b
基础模型构建,并在状态机框架内运行。这种架构明确了职责:策略做出语义决策,而框架管理底层持久搜索状态(称为
WORKINGMEMORY
)。
框架架构和状态管理:
该框架维护一个全面的、每个回合
WORKINGMEMORY
包含多个明确状态组件的状态:
-
候选库(
P_t): 存储文档 ID、摘要和全文文档引用。它包含用于压缩和去重搜索结果的机制。 -
精选输出集(
C_t, I_t): 一个包含 30 篇精选文档的列表(M=30),每篇文档都被赋予一个重要性标签(非常高、高、一般、低)。它采用容量感知淘汰策略,优先处理重要性较低的文档。首次成功搜索会自动将fair重要性排名前 k=8 的结果“自动填充”到此集合中。 -
全文内存(
D_t): 一个外部内存,用于存储所有检索块的完整文本和元数据,可通过策略访问。 -
证据图(
G_t): 通过从传入的数据块中提取专有名词、四位数年份和数字日期,得出跨文档连接的摘要。它呈现频繁实体、“桥接文档”(连接多个频繁实体)和“单例实体”(仅出现在一个文档中)。 -
验证缓存(
V_t): 记录根据文档检查的保单索赔结果D_t,包括yes/no判断和理由。 -
搜索历史记录(
H_t): 记录过去的操作、结果摘要和整体搜索进度。 -
预算感知渲染器(
B_t):WORKINGMEMORY管理提示符中 的渲染,以保持在令牌预算内,并在必要时逐步截断不太重要的信息。
政策行动:
该政策通过一系列结构化的“和谐行动”与环境进行交互,这些行动以编辑的形式运行
WORKINGMEMORY
:
-
检索操作:
fan_out_search(queries)使用 RRF + 重排序并行执行最多五个不同的查询。search_corpus(query)执行单次目标混合搜索(BM25 + 密集搜索)、RRF 和重排序。grep_corpus(pattern)对语料库执行精确的正则表达式匹配。read_document(doc_id):从数据库中检索已知文档 ID 的全文D_t。这些操作会更新数据库P_t和数据库D_t。
-
策展行动:
curate(add, remove, importance)C_t:通过添加、删除或重新标记文档的重要性级别 来编辑文档。
-
验证行动:
verify(doc_ids, claim)该政策制定索赔并从中选择D_t要测试的文件。该框架执行基于LLM的蕴涵检查,并将判断结果记录在内V_t。
-
记忆复习操作:
review_docs(doc_ids):重新渲染以前查看过的文档,而D_t无需启动新的语料库搜索,从而允许策略重新检查证据。
-
终止措施:
end_search(reasoning):结束本集并提交最终结果C_t。
派生状态渲染和上下文管理: 该框架并非简单地存储原始文本;它将紧凑的结构化信号处理并渲染到每个观察结果中:
- 句子-BM25 压缩: 检索操作的输出通过使用 BM25 对句子与查询进行评分并保留前 K=4 个句子来压缩。
- 两级去重: 传入的证据通过块 ID 和内容指纹(Jaccard 阈值为 0.85 的 MinHash-LSH,并回退到 SHA-1)进行去重,以防止提示中出现冗余信息。
-
上下文预算:
5 次渐进降级算法确保渲染结果
WORKINGMEMORY符合最大提示标记预算(输入 30,720 个标记,生成 2,048 个标记),优先考虑精选集和最近的工作记忆。 - 程序化引导: 在回合之间,系统会注入简短、客观、有条件的规范性摘要(例如,“[需要采取行动]:在再次搜索之前进行整理”),以指导策略。
训练方案: 训练包括两个主要阶段:
-
监督式微调(SFT):
此阶段的重点是教会
gpt-oss-20b策略如何操作有状态接口。- 教师生成: 一个运行在完整 Harness-1 系统中的 GPT-5.4 模型作为实时代理,生成高质量的学习轨迹。它遵循与学生策略相同的系统提示、观察布局和工具模式。轮次级别的指导(例如,“搜索→整理节奏”、“晋升前先验证”)被注入到提示中。
- 数据: 899 条经过过滤的轨迹(来自 BC+、Web、Patents、SEC 基准)被重放并扩展为回合级监督数据。
-
配置:
LoRA(rank 32)在 上应用 3 个 epoch
gpt-oss-20b。
-
强化学习(RL):
从 SFT 检查点开始,RL 通过完整的搜索过程来改进策略的语义搜索决策。
- 算法: 基于策略的 CISPO 算法,采用组内优势归一化,在 SEC 数据上进行训练。
-
奖励函数:
仅限终端奖励(高于 10e-3 时取整,空集则取 -0.2)由以下部分组成:
F_beta(β=2)用于精选集质量。Trajectory Recall(ρ_τ)。Final-Answer Recall对于精选(ρ_A)和轨迹(ρ_τA)。-
二进制
answer bonus表示ρ_A > 0。 -
基于所使用的不同工具的
tool diversity bonus( ) 。w_div -
用于查找但不推广答案证据的
answer-miss penalty( ) 。w_miss -
A
turn penalty(π_turn)。
- 配置: 40 轮上限,每步 128 次查询,每次查询 8 次部署,总共 80 步(约 82K 次部署)。
评估方案:
- 基准测试: 使用了八个检索基准测试:BrowseComp+、Web、Patents、SEC(SFT/RL 的源族)、LongSealQA、Seal0QA、FRAMES、HotpotQA(保留传输基准测试)。
-
指标:(
Recall所有相关文档的精选集覆盖率)、Final-Answer Recall(黄金答案文档的精选集覆盖率)和Trajectory Recall(所有相关文档的池覆盖率)。 - 基线: 包括开放模型基线(Context-1、GPT-OSS-20B/120B、Qwen3-32B、Search-R1 32B、Tongyi DeepResearch 30B)和专有前沿 LLM(GPT-5.4、Sonnet-4.6、Opus-4.6、Kimi-K2.5),作为 Context-1 框架下的零样本检索器。
- 标准化: 所有方法均使用一致的检索原语、Web 后端、Qwen3-Reranker-8B 以及 30 个文档的最终预算。对于本身无法生成限制数量文档集的基线方法,会对其轨迹池应用重排序器。
5. 主要发现和结果
为评估 Harness-1 而进行的实验得出了关于其性能、可转移性及其设计组件的影响的几个关键发现。
整体检索性能:
- Harness-1 是一款拥有 200 亿数据量的搜索代理,在八项具有挑战性的检索基准测试中,平均召回率达到了 0.730。这些基准测试涵盖了包括网络、金融、专利和多跳问答在内的多个领域。
- 它在精选召回率方面显著优于排名第二的开源搜索子代理 Tongyi DeepResearch 30B,平均高出 11.4 个百分点。
- Harness-1 与规模更大的前沿模型搜索器保持竞争力,在评估协议下,其平均精选召回率高于 GPT-5.4、Sonnet-4.6、Kimi-K2.5 和 GPT-OSS-120B,只有 Opus-4.6 的平均召回率更高。
概括性和可迁移性:
- 一项显著的发现是 Harness-1 在预留的迁移基准测试中表现出色。在这四个基准测试(LongSealQA、Seal0QA、FRAMES 和 HotpotQA)上,Harness-1 的平均召回率比最接近的开放基线模型(Context-1)提高了 17.0 分,而这四个测试均未包含在 Harness-1 的 SFT 和 RL 训练中。
- 这与在SFT和RL阶段使用的四个源族基准测试(BC+、Web、Patents、SEC)上平均提升7.9分形成鲜明对比。在未见过的领域中,这种2.2倍的提升表明,该策略学习的是针对显式搜索状态的领域通用操作(例如,优化自动初始化的集合、读取桥接实体、在提升之前进行验证),而不仅仅是重放特定领域的模式。
训练数据效率:
- Harness-1 在训练数据规模相对较小的情况下取得了优异的性能,仅使用了 4,352 个独特的训练样本(899 条经过筛选的 SFT 轨迹和 3,453 个基于 SEC 数据的 RL 查询)。这比 Context-1(超过 8,000 个 SFT 任务,9,159 个 RL 查询)要少,也远少于 Search-R1(221,328 行 RL 数据),表明将簿记工作卸载到有状态接口有助于提高学习效率。
推理时间成分消融:
- 消融研究(在推理时禁用单个牵引机构)表明,大多数组件对性能有积极贡献。
-
七个被移除的机制中有六个(重要性标签、句子-BM25压缩、自动种子、证据图、
verify工具、review_docs工具)导致最终答案召回率下降,相对于完整系统下降了3.9%到7.9%。失败查询中观察到的共同行为特征是操作次数增加,而 调用次数search_corpus减少 ,这表明缺少这些状态机制后,搜索策略退化为一种广泛而浅层的搜索策略。read_documentverify - 禁用内容指纹去重功能后,召回率 (+4.6%) 和 FA 召回率 (+1.6%) 略有提升,作者认为这是因为基准测试中一些近似重复的黄金文档有时会被去重机制合并。这被认为是代币预算管理方面的一种权衡。
- 同时禁用 所有 辅助机制导致召回率(-12.2%)和 FA 召回率(-6.4%)的综合下降幅度更大,这表明辅助机制的累积效应是巨大的,并且不能仅仅归因于底层模型的隐式能力。
训练动态:
-
w_div研究发现,在强化学习训练中 加入工具多样性奖励( )至关重要。如果没有w_div该奖励,智能体的工具多样性会显著下降(从约6降至约3.5),且已整理工具的召回率也稳定在约0.53。这表明智能体退化为一种狭隘的、过度依赖搜索的策略,而忽略了工具整理和验证。 -
在
w_div积极使用工具的情况下,工具的使用范围更广(多样性稳定在约 4.30),最终筛选出的召回率也更高(约 0.60)。这表明,保持多样性的激励机制对于确保政策有效利用该平台提供的丰富工具集至关重要。
模块化 RAG 答案准确率:
- Harness-1 生成的精选数据集质量的提升,直接转化为模块化 RAG 设置中下游答案准确率的提高。当这些精选数据集提供给冻结边界生成器时,Harness-1 的数据集始终比其他开源子智能体生成的数据集产生更高质量的答案。
仅考虑贡献因素(混杂因素分析):
- 另一项在不同测试环境(朴素搜索-添加、Context-1 测试环境、Harness-1 测试环境)下运行 GPT-5.4 的实验表明,检索指标呈单调递增趋势。具体而言,即使没有进行任何强化学习训练,仅从 Context-1 测试环境切换到 Harness-1 测试环境,GPT-5.4 的召回率就提高了 4.2 个百分点。这表明测试环境本身可以作为一种有效的计算资源分配机制,增强固定模型的发现能力。
6. 重要性和潜在影响
Harness-1 的研究为检索增强型语言模型的发展,特别是智能搜索领域,引入了一个重要的视角。其意义和潜在影响可概括如下:
检索代理强化学习(RL)的进展: 本文的核心贡献在于将框架设计定义为检索代理强化学习中的一个核心关键问题。通过引入“有状态认知卸载”的原则,作者提出了一种新颖的分工方式:语言模型策略专注于语义搜索决策,而环境侧框架则系统地管理和呈现复杂且可恢复的搜索状态。这种方法解决了传统方法的已知局限性,传统方法通常会使语言模型策略承担繁琐的日常记账工作,从而导致学习效率低下。
增强的检索性能和泛化能力: Harness-1 在开源搜索代理中取得了最先进的性能,在各种基准测试(网络、金融、专利、多跳问答)中,其平均精选召回率均有显著提升。尽管模型规模仅为 200 亿,但它仍能与规模更大的前沿模型保持竞争力,这凸显了有状态 Harness 设计的有效性。至关重要的是,在保留的迁移基准测试中观察到的更显著的提升表明,该策略学习的是基于显式搜索状态的泛化检索行为和操作,而非特定领域的模式。这为构建更稳健、应用更广泛的搜索代理指明了方向。
提升可训练性和效率: 研究结果表明,精心设计的Harness-1能够显著提升强化学习(RL)训练的效率和稳定性。诸如预启动状态管理、紧凑的派生状态渲染以及保持多样性的激励机制等要求都对此做出了直接贡献。Harness-1在训练数据规模较小的情况下仍能达到如此优异的性能,这表明状态管理的外部化减轻了策略的负担,从而使专注于特定目标的训练(SFT)和强化学习(RL)能够更加高效地进行。
对模块化检索增强生成(RAG)系统的实际影响: 在模块化检索增强生成(RAG)场景中,Harness-1 能够将改进的精选数据集质量转化为更高的下游答案准确率,这是一项重要的实际影响。这表明 Harness-1 可以作为更优秀的检索子代理,为答案生成层级模型(LLM)提供更相关、更全面的证据,从而提升 RAG 系统的整体性能。
智能体设计的未来方向: 这项研究为“工具工程”作为智能体搜索的核心轴心开辟了新的途径。它表明,未来的工作可以进一步增强工具组件的智能性,例如,通过用学习型实体链接和关系抽取取代证据图中基于规则的实体抽取,或者通过融入不确定性感知的证据组织方式。这种范式转变促使人们更加关注智能体策略与其环境之间的共生关系。
伦理考量和更广泛的社会影响: 作者讨论了这项工作的积极和消极的社会影响。
- 积极影响: 有状态检索代理能够显著降低证据收集的成本和复杂性。这对于科学文献综述、法律和财务文件分析、事实核查以及需要组织多份文档证据的教育工作流程具有潜在优势。通过将检索与生成分离,Harness-1 的输出结果比黑箱结果更具可审计性和透明度。
- 局限性: 该系统主要设计用于检索带有标注的相关证据,而非开放式研究、证据缺失情况下的回避策略或对抗性网络环境。特定组件(基于正则表达式的证据图、基于LLM的验证器、BM25压缩)本身存在局限性。评估也受限于基准测试规模和标注覆盖率。
- 伦理风险: 如果连接到不受限制的语料库,功能更强大的搜索代理可能会被滥用,用于检索敏感、私密或受版权保护的信息。如果后端语料库遭到破坏,它还可能放大带有偏见或低质量的证据。该系统本身并非真理来源,也无法保证信息的完整性和客观性。
- 缓解策略: 作者提倡负责任的部署,包括适当的语料库访问控制、日志记录、速率限制、隐私过滤器和人工监督。对于高风险领域,此类系统生成的答案应始终由合格的专家进行审核。计划发布的检索子代理、框架代码和数据生成管道将包含预期用途和数据集来源的文档,以促进透明度和负责任的创新。