RL 之父预言成真,交互时代来了!
复旦大学联合字节跳动团队推出AgentGym-RL智能体训练框架,基于华为昇腾910B算力,仅用70亿参数的小模型就在网页导航、科学实验等场景超越GPT-4o等大模型。该框架采用模块化设计,独创ScalingInter-RL训练方法,在效率提升1.8倍的同时,实现了小模型媲美商业大模型的性能表现。目前已在网页自动化、科学实验、机器人控制等五大场景落地应用,未来还将开放多智能体协同功能并全面开源,标

2025年图灵奖得主 Richard Sutton 曾断言:“AI 正从‘数据堆出来’变成‘经验练出来’”。
2025 年 9 月 11 日,这句话被狠狠印证 —— 复旦大学、上海创智研究院联手字节跳动 Seed 团队,砸出了AgentGym-RL 智能体训练框架。
更狠的是,这框架靠华为昇腾 910B 算力撑场,直接打破 “模型越大越牛” 的魔咒:70 亿参数的小模型,居然在网页导航、科学实验等场景超越了 GPT-4o、谷歌 Gemini 等巨头模型。这波操作,直接掀开了 AI “交互扩展时代” 的序幕。
一、扒一扒框架黑科技:3 大模块 + 1 个核心方法
AgentGym-RL 能这么横,全靠底层硬实力。它没走传统 “零散拼凑” 的老路,而是搞了套 “模块化积木” 架构,还藏了个独家训练秘籍。
像搭乐高一样灵活的架构
框架拆成三个核心模块,各司其职又能自由组合:
环境模块:把网页、游戏、实验室等真实场景打包成 “训练副本”,支持并行调用 —— 相当于给智能体建了个 “全能训练场”
代理模块:封装了 LLM 与环境的交互逻辑,还自带 “长期规划”“自我反思” 技能,让智能体学会 “深度思考”
训练模块:能分布式跑数据、搞课程学习,8 张昇腾卡就能爆发出 2240 万亿次 / 秒的算力,训练效率直接拉满。
独家秘籍 ScalingInter-RL:让 AI “循序渐进成长”
传统训练总犯 “两极病”:要么早期探索太猛乱撞,要么后期死守老办法。AgentGym-RL 的ScalingInter-RL 方法直接治好了这毛病:

初期让智能体先练 “基本功”,少交互多夯实基础。后期慢慢加交互轮次,鼓励尝试新策略。
传统方法 150 步后奖励值暴跌 32%,而它能一路上涨。在 TextCraft 任务里,用 60% 的步数就达成了 89% 的成功率,比经典 PPO 算法效率高 1.8 倍。
二、性能炸了!7B 小模型逆袭万亿参数巨头
AgentGym-RL的最令人惊叹之处在于,它能够将小规模模型的性能提升到与顶级商业模型相媲美的水平。研究团队使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,在五个不同场景中评估AgentGym-RL和ScalingInter-RL的性能,结果令人振奋。

网页导航:准确率 26%,远超 GPT-4o 的 16%,追平 DeepSeek、Gemini 顶尖模型;
科学实验:在 SciWorld 场景拿了 57 分,把 OpenAI o3(41.5 分)甩在身后;
就连 BabyAI 网格导航、TextCraft 游戏制作这些复杂任务,都比 100B 以上的开源大模型表现更稳。
这彻底推翻了 “参数即正义” 的老观念
——
原来训练方法选对了,小模型也能有大能量。
三、从实验室到生活:这 5 个场景要被改写
AgentGym-RL 不是 “花瓶技术”,已经能落地到咱们身边的场景里:

1.网页自动化:智能助手帮你 “搞定一切”
以后逛电商、填表单不用自己点了 —— 训练后的智能体能在 WebArena 环境里精准点 “Sales” 标签、用 “Filter” 筛商品,甚至帮你自动提取网页关键信息。客服、电商助手的效率要翻番。
2.科学探索:AI 当 “实验搭子”
在 SciWorld 虚拟实验室里,智能体能自己用仪器做实验、分析数据。未来药物研发时,它能先在虚拟环境里试几千种化合物,帮科学家快速锁定候选分子,把研发周期砍半。
3.机器人控制:家里的 “全能管家” 不远了
BabyAI 环境里的智能体已经能在复杂房间里规划路线、避障。把这技术装到家用机器人上,以后它能自己找东西、打扫卫生,工业仓库里的机器人还能组队搬货、分拣。
4.智能搜索:再也不用 “翻几十页结果”
DeepSeek 环境里的智能体能多轮搜信息、用 Python 算数据,再整合答案。以后查资料、写报告,它直接给你 “打包好” 的结论,不用自己拼拼凑凑。
5.教育游戏:AI 当 “私人教练”
TextCraft 游戏里,智能体能一步步完成复杂物品制作。把这做成语言学习游戏,它能陪你对话、纠正语法;职业培训里,还能模拟工作场景练技能。
四、未来更狠:多智能体组队 + 全开源!
研究团队已经放出 “大招预告”:
多智能体协同:以后要让 AI 组队拧螺丝、打游戏,甚至管理智能交通
全量开源:代码、数据集都会公开,全球开发者能直接拿来改
昇腾生态加码:昇腾 910B 的算力还在升级,以后训练更大规模智能体更轻松。
五、结语:AI “经验时代”,昇腾撑场未来
AgentGym-RL 的发布,本质是 AI 从 “读课本”(数据驱动)到 “做实践”(经验驱动)的转身。而昇腾 910B 的算力,就是这场转身的 “发动机”—— 没有 2240 万亿次 / 秒的算力支撑,再牛的算法也跑不起来。
现在项目主页和论文都公开了https://arxiv.org/abs/2509.08755
说不定下一个用它改写行业的就是你。
你觉得这技术最先会颠覆哪个行业?评论区聊聊~

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐

所有评论(0)