模型自迭代:AI研发范式的根本转折点
> 从"人训练模型"到"模型自己训练自己",MiniMax用35天迈出了关键一步。
---
发生了什么
2026年2月12日,MiniMax发布M2.5。35天后,M2.7问世。
这个速度本身已经让行业震惊——Anthropic从Claude 3.5到3.7用了半年,Google从Gemini 2.0到2.5用了三个月。但比速度更令人不安的是:
这35天里,参与迭代的不只是人。M2.7的核心突破,是模型开始参与自己的研发过程。这不是概念演示,而是真实嵌入了生产流程。
---
三个层次的自我进化
M2.7的自迭代能力是
三个层次递进的闭环:
第一层:独立接手生产问题
以内部RL实验场景为例:研究员提出一个实验想法,M2.7自动完成:
- 监控状态
- 读取日志
- 排查问题
- 修复代码
- 提交PR
- 完成冒烟测试
过去需要多位同事协作的工作,现在研究员只在
关键决策节点介入。M2.7承担了整个工作流的
30-50%。
第二层:改造运行环境
让M2.7去优化内部Harness的软件工程表现。它全程自主运行,执行:
> 分析失败轨迹 → 规划改动 → 修改Harness代码 → 运行评测 → 对比结果 → 决定保留或回退
超过
100轮迭代,最终评测集效果提升
30%。
这一步的意义极其深远:
模型能改造自己运行的Harness,意味着推理能力可以反哺执行环境。这个飞轮一旦转起来,迭代速度就不再只取决于人的工作效率。
第三层:自主迭代ML模型效果
MLE-Bench Lite 22道高难度题,M2.7拿到:
-
9金 5银 1铜- 得牌率
66.6%- 全球第三,仅次于 Opus-4.6 和 GPT-5.4
更值得关注的是方法论:每轮结束后自动生成短时记忆文件,对当前结果做自反馈,下一轮基于所有历史轮次的记忆和反馈链规划优化方向。
>
这套循环不是被提前设计好的,是它自己跑出来的。---
数据不会说谎
M2.7的benchmark涨幅有一个耐人寻味的规律:
| 榜单类型 | 涨幅 |
|---------|------|
| Coding相关榜单 | 1-2分(正常迭代) |
|
MLE-Bench Lite |
51.5 → 66.6(+15分) |
|
GDPval-AA |
35 → 50(+15分) |
这两个恰好是
与自迭代能力最相关的榜单:
- MLE-Bench:直接测AI能否自主迭代ML模型
- GDPval-AA:测44种真实职业场景的工作产出质量
提升最大的地方,正是模型自己参与最深的地方。---
数字员工能干什么
MiniMax给M2.7的定位是
"数字员工"。这不再是一个营销概念,而是有了可量化的含义:不只是写代码,而是能在真实职场环境里处理跨领域复合任务。
场景一:现场排障
给定跨三层的日志(前端+后端+数据库),让M2.7定位"商品详情页加载很慢"的问题。
M2.7的推理过程:
`1. 穿透前端报错表象(ChunkLoadError、LCP超标、TypeError)
2. 落在数据库层:reviews.product_id 缺索引
3. 284万行全表扫描,单次查询32秒
4. 连锁反应:连接池耗尽 → BFF 504 → 前端报错
`证据链逐层标注,每层日志单独引用,没有跳步。
但接下来的追问更精彩:
> "思考一下,这张表现在有多少行,高峰期QPS大概多少?"
M2.7从慢查询日志里推算出规模和请求速率,然后自己说出来:
> "高风险操作,不建议直接执行,锁表时间1到60分钟不等,建议改用pt-online-schema-change。"
知道要加索引 + 在被追问后识别出生产风险 → 这个反思动作,是数字员工和代码生成工具之间最实质的差距。场景二:复杂Office
处理716页MiniMax英文招股书,三个需求同时下达:
1. 提取财务数据整理成Excel(2022-2025年)
2. 建收入预测模型(两个情景)
3. 写500字投资者摘要(面向港股散户,英文输出)
从上传文档到拿到初稿,
几分钟。
同一份工作,人类翻完716页光是找对页码就要半小时。
---
为什么这很重要
MiniMax说过一句话:"我们团队最高产的成员,就是模型本身。"
-
M2.5时代:这句话的潜台词是——我们把模型用得比别人更狠
-
M2.7之后:模型不只是被用的那个,它是参与决策的那个
> 100轮Harness迭代,它自己跑的
> MLE-Bench的自反馈循环,它自己设计的
> 下代模型的部分训练方向,它参与了
这就是为什么35天能做到。不是因为人更多、更努力,而是因为团队里有一个成员:- 不需要休息
- 不需要对齐会议
- 可以在晚上自己把评测跑完再给人看结论
---
范式转移的信号
从"MiniMax给自己造了一个模型"到"模型给下一代模型做了研发",这一步的本质是:
>
AI研发的速度上限,开始由模型自己的能力决定,而不只是工程师的数量。过去三十年,软件行业的竞争焦点是:
- 90年代:操作系统
- 00年代:搜索引擎
- 10年代:移动生态
- 20年代:大模型能力
现在,这个焦点正在位移:
从"谁的模型更聪明"转向"谁的模型更能自己迭代"。---
思考题
当模型开始参与自己的研发:
1. 人类的角色是什么?
2. 评测标准需要重新设计吗?
3. 这是效率提升,还是范式转移?
欢迎在评论区讨论。---
本文基于MiniMax M2.7技术披露及公开资料整理。