详细报告:《Agents' Last Exam》
2. 这项工作如何融入更广泛的研究领域
人工智能(AI)系统的发展已在多项基准测试中展现出强大的能力,包括在复杂游戏、高等数学和竞技编程等领域取得胜利。然而,这些基准测试的成功并未持续转化为在许多专业领域内广泛且具有经济效益的应用。作者将这种观察到的差异称为“人工智能的效用问题”,这表明当前的评估方法存在缺陷。
现有的人工智能基准测试通常侧重于抽象能力、特定子任务或模拟环境。例如,知识型和考试型基准测试,如MMLU、GPQA和HLE,通过问答来评估模型的知识水平。而智能体和计算机使用型基准测试,如SWE-bench、OSWorld、WebArena和Terminal-Bench,引入了多步骤交互和工具使用,但通常仅涵盖有限的软件领域,或者依赖于专家设计的任务,而非真实的专业工作流程。虽然GDPval和远程劳动力指数(RLI)等项目已开始在具有经济基础的项目规模任务上评估人工智能,但它们通常仅覆盖劳动力市场的一部分,并且依赖于主观的人工判断进行验证。
本文认为,基准测试在人工智能发展中发挥着至关重要的作用,它能够聚焦研究方向并明确工程目标。正如ImageNet加速了计算机视觉领域的进步一样,对于那些目前人工智能影响仍然有限、但对经济至关重要的行业而言,也需要一个类似的评估框架。构建此类评估框架面临诸多挑战,例如:从真实的软件和组织环境中收集长期、真实的工作流程成本高昂;难以获得广泛的行业专家支持;以及验证异构输出(例如文件、电子表格、媒体素材、报告、设计等)本身就非常复杂。
为了弥补这些不足,“智能体最终评估”(ALE)应运而生。它旨在衡量人工智能系统在真实专业环境中执行持续、具有经济价值的工作的能力,涵盖具有可验证结果的长期任务。ALE专注于非实体行业,并以既定的职业分类为基础,力求提供一个全面且现实的评估框架,弥合人工智能研究能力与其实际经济影响之间的差距。ALE的独特之处在于:覆盖范围广(55个子领域,而GDPval和RLI分别只有16个和14个子领域),任务源自真实项目,并采用自动化、确定性的验证方法而非人工判断。
3. 主要目标和动机
本文的主要目标是引入“智能体最后考试”(ALE),这是一个新型基准测试,旨在评估人工智能智能体在具有经济价值、长期性且能反映真实世界专业工作流程的任务上的表现,并着重关注可验证的结果。实现这一目标的关键动机在于:弥合人工智能系统在传统基准测试中表现出的卓越性能与其在核心行业中转化为可衡量的经济产出相对有限之间的“效用差距”。
作者通过强调以下几点来阐述ALE的动机:
-
解决“效用问题”: 尽管人工智能系统在众多学术和博弈论基准测试中取得了显著成果,但它们对国内生产总值 (GDP) 和核心产业(例如金融、法律、电气工程、制造业)的实际影响却出人意料地微弱。这表明,现有的基准测试可能无法充分衡量人工智能在实际专业环境中完成具有经济价值的工作所需的能力。ALE 旨在评估人工智能执行持续、端到端任务的能力,这些任务能够直接创造经济价值。
-
通过评估塑造人工智能发展: 本文提出,基准测试不仅记录能力,还能积极塑造研究方向和工程目标。ALE 通过引入基于真实世界专业任务的基准测试,旨在将人工智能开发工作重新聚焦于构建能够执行与工业应用直接相关的复杂多步骤工作流程的系统。“Last Exam”(最后的考试)这个名称蕴含着双重意义:
- 能力门槛: 能够通过这些“行业考试”的代理人将证明其已准备好在特定职业中从事持续的、具有经济价值的工作,而不仅仅是回答问题或孤立的技能展示。
- 难度前沿: ALE 通过评估智能体在真实、长远的工作流程中的表现,这些工作流程需要专业的判断和复杂的工具使用,从而将自身定位在人工智能系统能够可靠实现的当前边界,为未来的研究提供了一个具有挑战性的目标。
-
克服现有基准的局限性: 开发此类评估方法面临诸多挑战,原因如下:
- 真实工作流程的成本: 收集真实世界的专业任务成本很高,因为它们源自实际的软件和组织环境,这与较短的、合成的或纯粹的问答任务不同。
- 行业覆盖范围: 要广泛代表具有经济价值的工作流程,需要持续接触各种领域的专家,并深入了解各种行业格局。
- 输出的可验证性: 真实的专业工作流程经常产生异构输出(例如文件、电子表格、设计、报告),这些输出本身在没有人工判断的情况下很难确定性地进行验证。
通过应对这些挑战,ALE旨在提供一个强大且可扩展的评估框架,鼓励开发能够执行复杂且具有经济意义的工作,并能进行客观、自动化验证的人工智能代理。其最终目标是:“如果前沿人工智能代理能够通过这项最终考验,那么基准测试的进展就可能开始转化为真正的经济转型。”
4. 方法论和途径
ALE 的方法论围绕着定义严格的设计原则、建立全面的分类体系、实施多阶段任务构建流程以及设计稳健的评估架构而构建。
基准测试设计原则: 将工作流纳入数据集遵循以下三个高级要求:
- 代表性: 任务必须符合真实的专业实践,并使用领域专家实际会使用的软件和工具。例如,建筑设计任务应使用行业标准的CAD软件,如SolidWorks或Rhino,而不是通用的替代软件。
- 复杂性: 任务必须代表需要大量专家时间才能完成的端到端交付成果,从而将复杂的工作流程与单一操作区分开来。例如,“将一只奔跑的猎豹移动到另一个比赛视频中”就需要多次视觉特效操作,这与应用单一颜色滤镜截然不同。
- 可验证性: 输出结果必须允许进行确定性检查,或采用与可观察工件相关的明确标准,从而最大限度地减少对人为判断的依赖。这可能包括将输出结果与文件的参考输出结果进行直接比较,或将结果与不太精确的任务的可测量工件进行比较,而不是提出开放式的设计要求。
基准范围和分类: ALE 分类基于 ONET /SOC 2018(美国联邦职业分类),以确保覆盖范围广泛且具有代表性。具有类似软件辅助工作流程的职业被归类为 13 个行业领域,涵盖 55 个子领域。核心工作并非主要涉及数字技术的实体行业被排除在外。我们使用 GPT-4o mini 和专家评审对 ONET 数据进行筛选,以识别相关的 SOC 代码,然后将其分组为 51 个基于 SOC 代码的子领域。此外,我们还添加了一个“前沿补充”,用于涵盖 SOC 2018 中尚未收录的新兴数字工作流程,最终形成了这 55 个子领域。该分类还用于映射和比较 ALE 与先前基准的覆盖范围。
任务构建流程: 五阶段式协议确保真实性、复杂性和技术可执行性:
- 专家资源: 领域专家通过行业从业人员组成的顾问委员会进行招聘,确保对整个分类体系的全面覆盖。
- 任务提交与编辑: 专家通过网络平台提交以往项目(耗时数天/数周)。人工智能辅助工具将这些提案精简为五个核心组成部分:自然语言描述、输入文件、目标软件、预期交付成果和评估规范。
- 第一轮评审: 提交的稿件将进行会议式评审(大修改/小修改、勉强接受、接受、强烈接受),修改意见将反馈给专家。
- 任务实现: 工程团队将已接受的规范转换为可运行的资源,配置软件容器,并编写评估逻辑。工程师通过试运行识别差距,并触发自动反馈给专家。
- 最终质量控制 (QC) 和验收: 专家委员会进行同行评审,以验证参考输出的正确性,校准评估范围,并在任务被接受之前确保足够的上下文。
公开/私有发布策略: 为了降低基准测试污染风险(例如,预训练数据重叠),1490 个任务实例中仅公开 150 个(约占 10%)。其余实例则私有保存,并定期轮换到公开数据集中,用新公开的任务替换已移除的任务,以长期保持评估数据集的纯净性。实证分析证实,公开子集能够代表整个数据集(Pearson 相关系数 r=0.89)。
评估流程架构: 该流程将三个组件解耦:
-
任务规范:
一个可执行
main.py文件,其中包含任务描述、输入资产、目标软件、参考资产和评估标准。它公开了三个生命周期功能:(load()声明任务/计算需求)、start()(将虚拟机配置到确定性状态)和evaluate()(对代理输出进行评分)。 - 代理: 被评估的系统(框架+基础模型)接收任务描述,进入动作循环(观察环境、选择动作、执行),然后终止。
-
环境:
远程虚拟机托管所需软件,并采用标准化的四目录结构:(
input/代理的只读资源)、software/(预装应用程序)、output/(代理的可写目标)和reference/(用于评分的隐藏真实值)。执行通常在 Google Cloud Platform (GCP) 虚拟机上进行(c4-standard-4,GPU 任务使用 g2-standard-8)。
智能体架构:通用计算机使用智能体 (GCUA): ALE 的目标是 GCUA,它将视觉感知、代码执行、工具使用和长远规划集成到一个单一的动作循环中。智能体被分解为五个功能层:大脑(LLM 推理)、眼睛(GUI 感知)、身体(编排)、手(工具调用)和脚(运行时底层)。GCUA 需要跨所有层提供完整的功能,超越了仅支持 CLI 或仅支持 GUI 的智能体。典型的框架架构包括主智能体循环、模块化系统提示构建器、统一工具系统、子智能体调度和上下文压缩管理器。GUI 功能通过“GUI 作为工具”模式(14 个桌面操作工具)或“GUI 作为子智能体”模式(适用于没有原生视觉输入的模型)添加。
评估模式:
evaluate()
函数对高度异构的交付物进行评分。评分可以在主机端(默认,适用于小型工件和非虚拟机工具)或虚拟机端(适用于
CAD/CAM 内核等专用软件)运行。任务创建者可从各种工件模式中进行选择:精确值/哈希值、结构化表格/数值、几何/空间、视觉外观(使用视觉 LLM 评测器)、行为/世界状态、自由文本/语义(使用
LLM 评测器)或可执行工件。评分组成模式包括:
- 门控评分: 在评估连续质量指标之前,必须满足一个二元前提条件(例如,无刀具路径碰撞)。
- 加权评分标准: 多个子指标的加权总和。
- 二元清单平均值: N 个独立是/否问题的平均值。
- 成对文件聚合: 匹配的代理/参考文件的平均得分。除非确实没有确定性的替代方案,否则 ALE 会主动避免使用 LLM 作为评判者;即使如此,它也使用基于证据的、范围较窄的“是/否”探测,而不是通用的、整体性的提示,并且始终通过代码处理整合。
5. 主要发现和结果
对 ALE 上各种 AI 代理的评估揭示了有关它们在执行复杂的现实世界专业任务方面的当前能力和局限性的几个关键发现。
整体性能和基准测试饱和度:
- ALE 目前远未达到饱和状态。难度最高的“最终考试”级别,在主流框架和主干配置下的平均完全通过率仅为 2.6%。
- 经测试,最强的配置是搭载 GPT-5.5 的 Codex,其总体通过率也仅为 26.2%。即使是这种配置,在 ALE 的“近期”难度级别中得分也低于 50%,在“最终考试”难度级别中更是低于 10%。包括 Claude Code 在内的大多数其他主流智能体,在最高难度级别下的通过率都接近于零。
- 对于 ALE-CLI 子集(仅限 Linux 任务),采用 GPT-5.5 的 Codex 总体通过率为 25.2%,远低于其在类似的 Terminal-Bench 基准测试中 82% 的性能,这表明 ALE-CLI 任务难度更大,需要更长的代理会话。
按难度等级划分的表现:
- 近期任务(59 个任务): 这些任务目前前沿智能体可以部分完成,最高通过率约为 30%。它们是短期竞争中具有成本效益的目标。
- 全方位(55 个任务): 此级别提供广泛的领域覆盖,ALE 的 55 个子领域中每个领域至少有一个任务实例。
- 最后考试(36 个任务): 这一层级包含最具挑战性的工作流程,大多数代理的通过率为 0%,代表了基准的长期提升空间。
领域级性能(图 9a):
- Claude Opus 4.7 和 GPT-5.5 在多个测试框架上平均表现为相似的领域性能特征。
- 计算数学和农业/环境领域的平均得分最高(约 60%)。
- 视觉媒体和教育领域仍低于 30%。
- 这种模式表明,不同领域之间的内在模型能力存在不平衡,并且在训练期间接触工具使用任务的机会可能也不均衡,与代码相关的领域比专门的专业工作流程获得了更多的覆盖。
工具使用情况分析(图 9b、9c):
- 对工具轨迹的分析表明,在大多数配置中,GUI 的使用率始终很低,通常低于需要图形软件的任务的需求(34% 的公共任务将图形软件指定为主要工具)。
- 代理经常使用 Bash/CLI 替代品来完成以 GUI 为中心的任务,这表明有效整合视觉感知和交互是一个挑战。
故障分类(图 9d):
- 对 Claude Code + Opus 4.7 失败任务的分类显示,“理解”和“方法”方面的失败加起来约占四分之三的案例。
- “方法”错误(例如,错误的策略、未完成/放弃的任务)占失败的 47%。
- “理解”错误(例如,领域知识差距、幻觉/捏造)占失败的 31%,其中领域知识差距占大多数。
- “执行”错误(例如,实现错误、输出格式错误、GUI 故障)占剩余的 22%。
- 这种分布表明,当前代理商的主要瓶颈不仅仅是执行能力,而是与领域知识、战略规划和问题解决方法相关的更深层次的问题。
模型效应与安全带效应(图 12):
- 底层基础模型的选择对整体性能的影响远大于代理框架的选择。
- 在固定的 OpenClaw 框架下改变骨干网模型,导致整体通过率相差 18.0 个百分点。
- 相反,在固定主干(GPT-5.5 或 Claude Opus 4.7)下改变框架,则产生了 5.3-6.0 个百分点的更窄的分布范围。
- 这表明基础模型的推理能力和领域知识是驱动代理性能的主要因素,这与故障分析结果一致。
成本、时间和代币效率(图 13):
- 资源消耗(API 成本、实际运行时间、令牌使用量)越高,性能越好,两者之间没有可靠的相关性。
- 有些配置以较低的成本或较少的代币获得较高的分数,而另一些配置则消耗更多的资源,但性能却相当甚至更低。
- 例如,ALE-Claw 搭配 GPT-5.5 时,在成本和代币使用量适中的情况下获得了较高的分数;而 ALE-Claw 搭配 Opus 4.7 时,成本却显著更高,得分却更低。这凸显了高效工具使用和上下文管理的重要性,以及模型本身的能力。
6. 重要性和潜在影响
“智能体最后考试”(ALE)基准测试对人工智能领域具有若干重大意义和潜在影响:
-
重新定义人工智能评估以提升经济相关性: ALE 弥补了当前人工智能评估范式的一个关键缺陷,它超越了抽象能力或孤立任务的范畴,专注于真实专业环境中具有长期经济价值的工作。这使得人工智能开发的重点从“模型知道什么”转移到“模型能做什么 ” ,直接旨在实现可衡量的经济产出和产业应用。
-
全面且真实的覆盖范围: ALE 的分类体系基于 O*NET/SOC 2018 职业分类标准,涵盖 55 个数字行业,包含超过 1000 个任务实例,提供了前所未有的广度和真实性。任务直接来源于 250 多位行业专家完成的实际项目,确保挑战反映的是真实的专业实践,而非人为构建的场景。这种全面的覆盖范围使 ALE 与广泛的劳动力市场高度相关。
-
客观且可扩展的验证: ALE致力于针对异构输出进行确定性的、基于评分标准的自动化验证,而非主观的人工判断或开放式的LLM评判方法,从而提升了评估的客观性、可复现性和可扩展性。这种设计选择能够更可靠地衡量智能体的性能,并有助于持续跟踪进度,同时避免高昂的成本或人为偏见。
-
前沿人工智能的长期挑战与发展路线图: 前沿人工智能代理的低通过率,尤其是在“最终考试”级别,表明该基准测试为未来的研究和开发提供了巨大的空间。ALE 被设计为一个“难度前沿”,旨在推动对现实世界人工智能部署至关重要的领域的进步,例如长期规划、稳健的工具使用(尤其是 GUI 交互)以及深度领域知识集成。作为“动态基准测试”,ALE 的持续发展确保了其随着时间的推移始终具有相关性和挑战性。
-
弥合研究与经济转型之间的鸿沟: 最终,ALE 的目标是弥合基准测试成功与 GDP 相关影响之间的“效用差距”。ALE 达到饱和状态意味着人工智能代理能够持续执行工具密集型工作,其水平足以满足真正的工业应用需求,从而将人工智能的进步转化为切实的经济转型。这为人工智能界提供了一个清晰可行的目标,使研究工作与社会和经济需求保持一致。
总而言之,ALE 代表着向更现实、更经济的 AI 代理评估迈出的重要一步,它提供了一个强大的框架,可以加速开发真正有能力、有影响力的专业领域的 AI 系统。