English Version | 中文版

Authors: Xuqin Zhang*, Quan He*, Zhenrui Zheng, Zongzhang Zhang, Xu He, Dong Li

(*: Co-first)

<aside>

📄 Paper: arxiv.org

🤝 Community reproduction (Special thanks for (Rainyrou)):

🧠 Model: 🤗 ASTER-4B-RL

⌨️ Code&Dataset: https://github.com/Rainyrou/ASTER

</aside>

概述

我们发现在Tool-intergrated reasoning(模型可交互代码工具)场景下,已有训练方案如ReTool、Zero-TIR等存在interaction collapse问题,未充分利用代码工具潜力;在分析冷启动、交互密度、推理预算等影响因素后,我们提出的新方案基于Qwen3-4B增训,相对已有方案显著提升了模型能力上限,所训练模型以4B参数量在AIME、HMMT等多个经典数学Benchmark上达到了Deepseek v3.2-exp、MinMax-M2.5等一线大模型水平。

image.png

图 1:AIME 2025 vs 参数规模对比图。我们的模型 ASTER-4B 分数达到 90.0,能力不仅远超同档模型,更能持平百倍参数量的一线大模型如 DeepSeek-V3.2-exp (671B)、 MiniMax-M2.5(~230B) 等,效用优势显著

image.png

图2:我们的训练方案同基线与已有方案的对比

TL;DR

背景:为什么 TIR 的 RL 未能显著scaling?

过去一年,RL 在长链推理(long-horizon reasoning)上非常成功(例如 o1 / R1 这类系统展示的“慢思考”能力)。但纯文本推理天然脆弱:一个小错会在长链里被放大,而且没有外部反馈去“钉住”中间步骤。

Tool-Integrated Reasoning(TIR)的直觉很直接:把“精确计算 / 中间验证 / 反复试错”交给工具(最常见就是 Python 代码执行),模型负责 规划、建模、解释、纠错。但在 TIR 场景下继续用 RL 往上推能力时,常常会出现 Interaction Collapse:模型在训练过程中逐渐减少多轮工具交互,转而把主要计算与推导“塞回”文本推理里,最后只做一次(或很少量)的代码验算**。我们认为这种 collapse 既有数据先验也有优化动态**两方面原因: