研究报告：《MAI-Thinking-1: Building a Hill-Climbing Machine》

1. 作者及机构

该研究论文由隶属于微软人工智能部门的微软人工智能团队撰写。

2. 这项工作如何融入更广泛的研究领域

本文致力于大型语言模型（LLM）开发领域，尤其关注持续改进模型的系统化流程。文章提出了一种名为“爬山机”的框架，该框架将模型开发视为系统级优化问题，而非一系列孤立的模型发布。这种方法旨在解决如何以渐进且稳健的方式提升LLM能力这一持续存在的挑战。

MAI-Thinking-1 是一款拥有 350 亿活跃参数和 1 万亿总参数的混合专家 (MoE) 模型，其开发使其能够与开放权重和封闭权重类别中的其他前沿逻辑线性模型 (LLM) 进行直接比较。该论文指出，MAI-Thinking-1 在 STEM 推理、编码、知识、指令执行、长上下文理解、安全、健康和工具调用等任务上，与同等规模的模型具有竞争力。这一竞争力体现在与 Claude Sonnet 4.6、Claude Opus 4.6、GPT 5.4、Kimi K2.6、DeepSeek V3.2、DeepSeek V4 和 GLM-5.1 等模型在各种公开基准测试上的比较中。

这项工作的一个显著特点是强调完全使用干净的、人工生成的企业级数据从零开始训练模型能力，而不依赖于第三方模型的提炼或其他LLM生成的合成数据。这与利用合成数据扩展训练语料库或通过提炼继承模型能力的方法形成鲜明对比。本文还探讨了大规模LLM开发中的实际挑战，例如防止评估基准测试造成数据污染、权衡模型的实用性和安全性，以及确保分布式训练和推理基础设施的稳定性和效率。自主开发的YOLO和Rocket框架分别用于训练和强化学习，体现了大规模LLM构建的全面、端到端的工程方法。

3. 主要目标和动机

本研究的主要目标是建立并详细阐述一种全面的系统级人工智能模型开发方法，称为“爬山算法”。该算法旨在通过将所有开发阶段整合到一个经验优化循环中，实现模型的快速和持续改进。

使用此框架开发 MAI-Thinking-1 的具体动机和目标包括：

持续改进： 其核心动力在于坚信人工智能的进步源于不断增强现有模型的能力，而非依赖于单一的突破。这就需要一个稳健的流程来实现持续的性能提升。
能力学习而非继承： 一个基本的设计原则是，模型能力应该直接从数据中学习，而不是通过从其他人工智能模型中提炼而来。作者指出，通过模仿获得的智能可能缺乏可控性和鲁棒性，而这两点对于长期改进至关重要。这促使他们完全使用干净的、人工生成的数据，并采用“从零开始”的训练范式。
化繁为简， 追求可持续发展：本项目旨在通过采用简单易行、可扩展的培训方案、使用清晰可验证的数据源以及构建透明的基础设施，实现可持续发展。这一原则旨在降低可能阻碍长期发展的复杂性。
科学严谨性： 开发过程强调科学严谨性，要求每一项设计决策都必须通过数据驱动的消融实验、规模化阶梯实验和全面评估进行验证。这确保了改进措施具有实证基础且可重复。
广泛的能力和推理能力： MAI-Thinking-1 的一个关键目标是在预训练阶段获得跨广泛领域（STEM、编程、常识、多语言文本）的广泛预测能力和知识。在此基础上，强化学习阶段将进一步发展高级推理和问题解决能力。
持续的强化学习性能： 研究人员致力于开发一种强大的强化学习 (RL) 方案和基础设施，使其能够在数千步内保持长期的对数线性性能提升，即使在没有事先接触推理轨迹的情况下从头开始 RL 也是如此。
平衡安全性和实用性： 一项重要的挑战和目标是如何平衡模型对用户请求的响应能力与对安全策略的遵守情况。这包括制定内部安全基准，并将安全培训融入到强化学习过程中。
透明和科学驱动的方法： 通过分享技术细节和经验，作者旨在为人工智能开发社区内透明和科学驱动的文化做出贡献。

4. 方法论和途径

MAI-Thinking-1 的开发涉及一个多阶段过程，该过程围绕“爬山机”构建，集成了数据、架构、训练、强化学习和评估组件。

4.1. 预训练（MAI-Base-1）

模型架构： MAI-Base-1 是一个 35B 活跃节点/1T 总节点的稀疏混合专家 (MoE) 模型。它使用仅解码器的 Transformer，并采用 RMSNorm 和绑定输入/输出嵌入权重。该架构采用周期性注意力机制，交替使用五个局部注意力层和一个全局注意力层，并在 MoE 层中穿插密集前馈网络 (FFN)。专家信息采用 LatentMoE 设计，在共享下投影后，每个词元激活 512 个专家中的 8 个。采用无 dropless MoE 实现，并使用全局批量负载均衡损失。使用词汇量为 200,019 的 o200k_base 分词器。
训练基础设施： 训练在微软运营的 Azure 集群中的 8,192 个 GB200 GPU 上进行，采用名为 YOLO（You Only Launch Once，仅启动一次）的内部分布式训练框架。YOLO 支持多种并行策略（数据并行、张量并行、上下文并行、专家并行、流水线并行），并包含针对数值精度和效率优化的自定义内核。
预训练数据： 该模型使用内部精心整理的语料库进行预训练，该语料库包含 30 万亿个词元，所有数据均来自公开且已获得授权的人类生成数据，明确排除了语言模型生成的合成数据和人工智能生成的内容。数据来源包括网页内容（HTML、PDF）、公开的 GitHub 代码、书籍、学术论文、新闻和多语言文本。常见的机器学习数据集已进行去污处理。
- 数据处理： 我们实现了一个多阶段流程，用于HTML提取（使用特定源解析器、手工设计的提取器以及基于LLM/代理的处理）、多阶段去重（精确去重、使用MinHash LSH的模糊去重、模板化网页去重以及使用嵌入模型的语义去重）以及过滤/分类（使用元数据信号、特定源启发式方法、学习型分类器、提示式LLM以及人工标注）。此外，我们还应用了具有全局去重顺序的跨数据集去重。
- 数据混合选择： 采用分层优化方法，结合局部搜索和全局搜索，确定不同数据源的相对比例，目标是最小化各类别（编码、STEM、数学、常识、多语言）的总体保留负对数似然 (NLL) 得分。为防止过拟合，最大迭代次数限制为 8。
训练方案： 预训练包括三个顺序阶段，序列长度逐步增加：首先是 30T 个 token，上下文长度为 16,384；随后是两个中期训练阶段（3.4T 个 token，上下文长度为 65,536；以及 150B 个 token，上下文长度为 262,144）。训练中使用了 AdamW 优化器，并设置了特定的 beta 值和权重衰减，采用余弦学习率调度，dropout 率为 0.15。注意力层输出初始化为零，以缓解专家不平衡问题。默认数据类型为 BF16，GEMM 使用 FP8，而数值敏感操作和梯度累积则使用 FP32。

4.2 强化学习（RL）训练强化 学习训练旨在教会模型推理、使用工具、与环境交互，并使其符合人类的偏好和安全信号。它从零开始，在没有任何推理经验的情况下培养模型的推理能力。

强化学习目标： 核心目标源自基于词元级策略梯度的组相对策略优化（GRPO）。引入了两项改进：自适应熵控制，用于动态调整上限裁剪边界以维持目标策略熵；以及外部比率裁剪，用于防止梯度范数爆炸。
奖励设计： 总奖励分解为特定任务奖励、语言一致性奖励（惩罚思维链中的非英语标记）和长度惩罚（按问题难度缩放）。
抽样策略： 问题抽样采用提前退出策略和通过率过滤来选择有效问题。推广抽样采用前 p 个样本抽样，并将排除的样本标记进行屏蔽，以防止违反策略的情况。长度扩展课程逐步增加最大推广长度。
自蒸馏： 该技术用于从运行失败中恢复、更新基础策略，并通过对强化学习生成的模型迭代数据执行监督式微调（SFT）来实现模型能力的跨代迁移。它涉及收集强化学习后期阶段的各种数据，并将其与训练中期的数据混合。
专业模型： 训练了三个特定领域的专业模型：
- STEM Climb： 专注于数学、物理、化学和算法竞赛中的单回合问题解决能力。奖励可验证（SymPy、AI 评测系统、测试用例）。多阶段数据处理流程将原始文档转换为高质量的问答对，包括层级解析、问答配对、内容整理（将选择题/证明题转换为开放式问题）和评分。
- Agentic Climb： 专注于需要与外部环境（软件工程、通用工具使用）交互的多步骤任务。它使用了一个多步骤强化学习框架，该框架采用类似 ReAct 的循环，并使用沙箱执行环境 (SEE) 进行隔离的容器化执行。软件工程环境基于真实的 GitHub PR/issue 构建。通用工具使用环境模拟了丰富的服务交互，通常使用合成数据。通过网络控制、git 历史记录清理和测试篡改防护，降低了奖励作弊的风险。
- 实用性和安全性攀爬： 针对人类偏好、指令遵循性、可操控性、安全性、诚实性和风格进行了优化。奖励类型多样：基于人类偏好训练的奖励模型、基于评分标准的AI评判员以及可验证的奖励。奖励组合采用词典编排或门控应用方案，以优先考虑安全性。安全数据来自人工红队演练、自动化攻击和“不拒绝”测试。
整合： 通过使用平衡数据混合的监督微调 (SFT) 阶段，将三个专业模型整合为一个单一模型，然后进行最终的轻量级强化学习 (RL) 提升，以在保持推理性能的同时改进安全性和风格。
强化学习基础设施（Rocket）： 我们自主开发了一个异步分布式强化学习框架，利用 YOLO 作为学习器，SGLang 用于推理。该框架包含控制器、问题处理工作节点、部署工作节点、路由器和推理服务器。我们致力于控制学习器和推理引擎之间的“数值差距”（使用 bf16、MoE 路由回放和 top-p 掩码回放），并确保高效的权重传递。

4.3 评估

基准测试： MAI-Thinking-1 使用涵盖 STEM（AIME、HMMT、GPQA Diamond、LiveCodeBench）、智能体编码（SWE-bench Verified、SWE-Bench Pro、Terminal-Bench）、知识（MMLU-Pro、SimpleQA Verified）、指令执行（IFBench、AdvancedIF、MultiChallenge）、长上下文（GraphWalks、LongBenchV2、CorpusQA）、安全性（AIR-Bench、CyberSecEval）、诚实性（TruthfulQA、LongFact）、健康（HealthBench Professional、MedXpertQA）和工具调用（BFCL v3）等领域的公开基准测试进行评估。除非另有说明，所有评估均采用统一推理设置（T=1，p=0.97）。
人工并排评估： 人工评估员将 MAI-Thinking-1 与其他模型（Sonnet 4.6、Opus 4.6）在源自专家编写的提示和经过个人身份信息过滤的 Microsoft 消费者 Copilot 日志的真实任务上进行了比较。评估员从多个维度（指令遵循度、事实性、简洁性、完整性、风格/语气）评估了回答，并给出了总体偏好评分。
内部安全评估： 内部基准衡量低风险请求的过度拒绝率和越狱提示的攻击成功率（ASR），并按转换类型（基础、组合、自适应技术）分组。
安全红队演练： 在整个开发过程中，我们同时开展了内部和独立的红队演练（由微软人工智能红队和第三方供应商进行），以识别对抗性漏洞、新型攻击途径和危害类别差距。演练结果为训练数据的持续更新和策略的完善提供了依据。

5. 主要发现和结果

5.1. MAI-思维-1 性能

STEM推理与编程： MAI-Thinking-1展现了优异的性能。它在AIME 2025、AIME 2026和HMMT Feb 2026测试中分别取得了97.0%、94.5%和84.9%的成绩。在编程任务方面，它在SWE-Bench Pro、SWE-bench Verified和LiveCodeBench v6测试中分别获得了52.8%、73.5%和87.7%的分数。该模型在多个基准测试中展现出了与Sonnet 4.6相当的性能，并在SWE-Bench Pro测试中接近了Claude Opus 4.6的性能。
通用能力： 在涵盖知识、指令遵循、长上下文、安全、诚实、健康和工具调用等方面的基准测试中，MAI-Thinking-1 的性能与 Sonnet 4.6 相当。其中包括 MMLU Pro 85%、IF Bench 69%、Multi-Challenge 53%、AIR-Bench 88% 和 CyberSec Instruct 63% 的分数。
人工并排评估： 人工评分者总体上略微偏爱 MAI-Thinking-1 而非 Sonnet 4.6（MAI-Thinking-1 胜率为 49%，失利率为 45%），但更倾向于 Opus 4.6 而非 MAI-Thinking-1（MAI-Thinking-1 胜率为 43%，失利率为 52%）。MAI-Thinking-1 在简洁性、相关性、风格和语气方面均优于 Sonnet 4.6。
安全性和过度拒绝： 与 Sonnet 4.6 相比，该模型在多个危害类别（化学、生物、放射性、核及爆炸物、自残、选举与政治、网络危害、非法内容）中均展现出积极的帮助性与安全性平衡。在各种越狱评估技术中，该模型实现了较低的攻击成功率 (ASR)，与其他前沿模型（如 Sonnet 4.6 和 Opus 4.6）相当。通过红队演练缓解措施，在优先级最高的修复类别中，总体攻击成功率下降了约 22%。

5.2. 训练前洞察（MAI-Base-1）

NLL 性能： 与具有类似活动参数的模型（如 Gemma4 (31B) 和 DeepSeek v3.2 (37B/685B)）相比，MAI-Base-1 在保留的代码、QA、STEM 和数学 NLL 任务中实现了更低的每字节比特数 (BPB)，并且明显优于上一代 MAI L66 (23B/612B) 模型。
架构优化： 交错式 MoE 和密集 FFN 布局（将高稀疏层与零稀疏密集层相结合）在实际运行时间上比全程使用中等稀疏 MoE 层更高效，尽管其 FLOPs 效率相近。此外，随着专家数量（从 256 个增加到 1024 个，top-k=8）的增加，该架构的效率也持续提升。
数据混合优化： 实证观察对“秩不变性假设”提出了挑战，表明随着训练计算规模的扩大，数据混合的相对性能排序会发生变化。例如，在小规模的STEM NLL评估中，“以词干为主的混合”最初优于“以代码为主的混合”，但由于数据多样性和冗余度的差异，在大规模训练中，“以代码为主的混合”反而超越了前者。这凸显了数据混合中性能扩展的重要性。
上下文扩展： 一种渐进式上下文扩展方法被证明是有效且高效的。该方法首先在适合 MFU 的长度（64K）下进行中期训练，然后进行一个简短的专用扩展阶段（扩展至 256K 个词元），其性能与在最大期望长度下进行中期训练的模型相当，同时节省了计算资源。该模型能够快速适应更长的上下文，表明其主要作用是对现有表征进行校准，而非获取新的能力。

5.3 强化学习的启示

稳定性机制： 引入自适应熵控制和外部比率裁剪修改 GRPO 目标，通过调节策略熵和防止梯度范数尖峰，促进了更稳定和持续的 RL 爬升。
自蒸馏的有效性： 自蒸馏被证明能够有效维持长时间强化学习过程中的学习进度，从数值不稳定中恢复，并适应新的基础模型检查点。最优的自蒸馏策略包括使用约100万条推理轨迹，优先考虑来自后期学习阶段的轨迹，并增加提示信息的多样性。
推理痕迹（CoT） 的演化：对推理痕迹的分析表明，更强大的模型会发展出诸如推导和验证解决方案、识别不变量以及通过重新审视自身推理来展现怀疑精神等行为。在智能体任务中，更强大的模型会积极编写和运行单元测试，并执行“证据考古”来收集存储库证据，这与更弱的模型形成鲜明对比，后者更侧重于基本的健全性检查或肤浅的编辑机制。

5.4 基础设施性能

训练效率： YOLO 框架通过与架构演进的持续协同设计以及 20 多项基础设施/内核优化，在五个主要模型世代中保持了 20% 以上的模型 FLOP 利用率 (MFU)，尽管模型规模和复杂性不断增加。
吞吐量和容错性： MAI-Base-1 预训练运行在 8K GPU 上实现了 90.0% 的吞吐量，表明其具有很高的运行效率。重复计算和非步进时间带来的开销显著降低。确定性是其首要属性，确保了位级可复现性。
推理效率： 在部署方面，在相同的机架功率预算下，基于微软 MAIA-200 硬件的 MAI-Thinking-1 的令牌生成吞吐量比基于 GB200 的部署高出 40% 以上，表明每瓦性能有所提高。

6. 重要性和潜在影响

这项工作对人工智能发展领域做出了几项重要贡献，并具有潜在的影响：

机器学习模型（LLM）开发的系统化： 引入“爬山机”概念标志着机器学习模型开发方法正朝着更加系统化和工程驱动的方向转变。通过将模型改进视为一个涵盖所有组件（数据、架构、训练和评估）的持续优化问题，该方法为持续进步提供了框架，并有可能带来更可靠、更可预测的人工智能能力提升。
从零开始训练的有效性论证： MAI-Thinking-1 的卓越性能，无需借鉴第三方模型或生成合成数据，便已证明高质量的人工生成数据和严谨的内部开发流程能够产出前沿的语言学习模型。这为常用的合成数据方法提供了一种替代方案，并凸显了数据质量和来源的重要性。
对尺度律的深入理解： 关于数据混合优化中“秩非不变性”的实证发现，为理解LLM尺度律的复杂性提供了关键见解。它表明，最优数据策略可能高度依赖于尺度，因此需要更复杂、基于阶梯的消融方法来指导大规模训练决策。这有助于我们更深入地理解数据如何促进涌现能力的形成。
前沿模型的鲁棒性和一致性： 设计鲁棒强化学习目标（自适应熵控制、外部比率裁剪）的详细方法，结合全面的安全培训、内部评估和红队演练流程，有助于开发更安全、更符合目标的学习学习模型（LLM）。所实现的实用性与安全性之间的积极权衡是负责任的人工智能开发中的一项显著成果。对不断演进的认知能力（CoT）的分析，为推理能力的培养提供了定性见解。
对大规模基础设施的贡献： YOLO 和 Rocket 框架的开发，以及对系统级协同优化策略、容错机制（分布式异步检查点、快速恢复）和性能指标（MFU、吞吐量、确定性）的详细阐述，为构建和运行超大规模 AI 训练和推理系统提供了宝贵的技术蓝图。在定制硬件（MAIA-200）上展现出的效率提升，为更可持续、更经济高效的大规模基础设施部署指明了方向。
促进透明度和可复现性： 通过公开分享详细的技术方法、架构选择、数据处理步骤和训练方案，作者旨在培养一种更加透明、以科学为导向的人工智能开发方法。这种程度的细节分享有助于提高可复现性，促进合作研究，并加速该领域的整体发展。
对环境和社会影响的考量： 明确提及可持续发展举措和社区参与，体现了对负责任的人工智能开发的更广泛承诺，这种承诺不仅限于技术性能，还延伸到人工智能基础设施运行所在社区的环境管理和社会经济考量。