English Version | 中文版

Authors: Xuqin Zhang*, Quan He*, Zhenrui Zheng, Zongzhang Zhang, Xu He, Dong Li

(*: Co-first)

<aside>

📄 Paper: arxiv.org

🤝 Community reproduction (Special thanks for (Rainyrou)):

🧠 Model: 🤗 ASTER-4B-RL

⌨️ Code&Dataset: https://github.com/Rainyrou/ASTER

</aside>

概述

我们发现在Tool-intergrated reasoning（模型可交互代码工具）场景下，已有训练方案如ReTool、Zero-TIR等存在interaction collapse问题，未充分利用代码工具潜力；在分析冷启动、交互密度、推理预算等影响因素后，我们提出的新方案基于Qwen3-4B增训，相对已有方案显著提升了模型能力上限，所训练模型以4B参数量在AIME、HMMT等多个经典数学Benchmark上达到了Deepseek v3.2-exp、MinMax-M2.5等一线大模型水平。

图 1：AIME 2025 vs 参数规模对比图。我们的模型 ASTER-4B 分数达到 90.0，能力不仅远超同档模型，更能持平百倍参数量的一线大模型如 DeepSeek-V3.2-exp (671B)、 MiniMax-M2.5(~230B) 等，效用优势显著

图2：我们的训练方案同基线与已有方案的对比

TL;DR

问题：如何提升LLM推理能力上限？Tool-intergrated reasoning(TIR)为模型提供代码交互沙箱，提高模型推理效率，但直接使用 RL 进一步训练会出现 interaction collapse：模型逐渐放弃持续工具交互，转而在文本里“硬想”，最后做一次性的代码调用/事后验算。
洞察：决定 TIR-RL 后续走向的关键不是 post-SFT 准确率，而是 cold-start 数据里是否包含足够的 交互密度（interaction density）。
方法（ASTER）：用一个很小但高交互的 cold-start 集合（4K 轨迹，>9 次 tool calls/轨迹）建立 tool-using behavioral prior，再配合多阶段 GRPO RL。
结果：ASTER-4B 在 AIME 2025 达到 90.0（avg@16），包括HMMT、BeyondAIME等benchmark总体提升约20分。

背景：为什么 TIR 的 RL 未能显著scaling？

过去一年，RL 在长链推理（long-horizon reasoning）上非常成功（例如 o1 / R1 这类系统展示的“慢思考”能力）。但纯文本推理天然脆弱：一个小错会在长链里被放大，而且没有外部反馈去“钉住”中间步骤。

Tool-Integrated Reasoning（TIR）的直觉很直接：把“精确计算 / 中间验证 / 反复试错”交给工具（最常见就是 Python 代码执行），模型负责规划、建模、解释、纠错。但在 TIR 场景下继续用 RL 往上推能力时，常常会出现 Interaction Collapse：模型在训练过程中逐渐减少多轮工具交互，转而把主要计算与推导“塞回”文本推理里，最后只做一次（或很少量）的代码验算**。我们认为这种 collapse 既有数据先验也有优化动态**两方面原因：

数据先验层面：主流预训练语料以人类纯文本语料/改写语料为主，缺少文本-代码交替演进的语料；尽管现代LLM远比人类擅长写Bug-Free代码，也未必在预训练阶段形成“该把高风险/高成本的精确计算交给工具”的稳定习惯与策略模板。