关闭导航

阶跃星辰推出Step-DeepResearch单智能体深度研究模型高效性能媲美大厂

AI妹 2026-1-26 4 0

近日,阶跃星辰(StepFun)正式推出了全新的深度研究智能体模型—— Step-DeepResearch 。这款拥有32B 参数量的模型旨在将传统的网页搜索转化为更具专业深度的研究工作流,能够处理长程推理、工具调用及结构化报告撰写等复杂任务。

image.png

与市面上常见的、主要针对短问题检索优化的 Web Agent 不同, Step-DeepResearch 更专注于真实的科研与分析场景。它能够识别潜在的搜索意图,在面对不确定性时进行多源验证,并最终产出带有引用的专业报告。阶跃星辰团队表示,该模型基于 Qwen2.532B-Base 构建,通过将研究流程内化为单一智能体的决策过程,有效降低了推理成本。

为了让 AI 具备像人类专家一样的研究水平, Step-DeepResearch 重点打磨了四大“原子能力”:规划与任务分解、深层信息获取、反思与验证,以及专业报告生成。在训练过程中,团队利用高质量的技术报告、财务文件以及知识图谱数据构建了庞大的合成数据管线,使其在处理长程项目时具备极高的稳定性。

目前,该模型在 Scale AI 的研究评测指标中达到了61.42% 的依从率,表现足以媲美 OpenAI 和 Google 的同类深度研究系统。而在阶跃星辰自有的 ADR-Bench 中文基准测试中,这款32B 模型甚至超越了部分更大规模的开源模型,展现出极高的实用价值和成本优势。

论文:https://arxiv.org/pdf/2512.20491

划重点:

  • 🧠 单智能体架构: Step-DeepResearch 将规划、搜索、验证和撰写内化为单一模型的原子能力,无需调用多个外部智能体,显著提升效率并降低成本。

  • 深度科研导向:不同于简单的问答检索,该模型支持长达128k 的上下文,能够从超过2000万篇论文和权威索引中获取信息,生成严谨的结构化报告。

  • 性能表现强劲:在多项深度研究评测中表现优异,其32B 的体量实现了可比肩大参数量闭源模型的专业研究水准。

点赞 (0) 分享