模型自迭代:AI研发范式的根本转折点



> 从"人训练模型"到"模型自己训练自己",MiniMax用35天迈出了关键一步。

---

发生了什么



2026年2月12日,MiniMax发布M2.5。35天后,M2.7问世。

这个速度本身已经让行业震惊——Anthropic从Claude 3.5到3.7用了半年,Google从Gemini 2.0到2.5用了三个月。但比速度更令人不安的是:这35天里,参与迭代的不只是人。

M2.7的核心突破,是模型开始参与自己的研发过程。这不是概念演示,而是真实嵌入了生产流程。

---

三个层次的自我进化



M2.7的自迭代能力是三个层次递进的闭环

第一层:独立接手生产问题



以内部RL实验场景为例:研究员提出一个实验想法,M2.7自动完成:
- 监控状态
- 读取日志
- 排查问题
- 修复代码
- 提交PR
- 完成冒烟测试

过去需要多位同事协作的工作,现在研究员只在关键决策节点介入。M2.7承担了整个工作流的30-50%

第二层:改造运行环境



让M2.7去优化内部Harness的软件工程表现。它全程自主运行,执行:

> 分析失败轨迹 → 规划改动 → 修改Harness代码 → 运行评测 → 对比结果 → 决定保留或回退

超过100轮迭代,最终评测集效果提升30%

这一步的意义极其深远:模型能改造自己运行的Harness,意味着推理能力可以反哺执行环境。这个飞轮一旦转起来,迭代速度就不再只取决于人的工作效率。

第三层:自主迭代ML模型效果



MLE-Bench Lite 22道高难度题,M2.7拿到:
- 9金 5银 1铜
- 得牌率 66.6%
- 全球第三,仅次于 Opus-4.6 和 GPT-5.4

更值得关注的是方法论:每轮结束后自动生成短时记忆文件,对当前结果做自反馈,下一轮基于所有历史轮次的记忆和反馈链规划优化方向。

> 这套循环不是被提前设计好的,是它自己跑出来的。

---

数据不会说谎



M2.7的benchmark涨幅有一个耐人寻味的规律:

| 榜单类型 | 涨幅 |
|---------|------|
| Coding相关榜单 | 1-2分(正常迭代) |
| MLE-Bench Lite | 51.5 → 66.6(+15分) |
| GDPval-AA | 35 → 50(+15分) |

这两个恰好是与自迭代能力最相关的榜单
- MLE-Bench:直接测AI能否自主迭代ML模型
- GDPval-AA:测44种真实职业场景的工作产出质量

提升最大的地方,正是模型自己参与最深的地方。

---

数字员工能干什么



MiniMax给M2.7的定位是"数字员工"。这不再是一个营销概念,而是有了可量化的含义:不只是写代码,而是能在真实职场环境里处理跨领域复合任务。

场景一:现场排障



给定跨三层的日志(前端+后端+数据库),让M2.7定位"商品详情页加载很慢"的问题。

M2.7的推理过程:
`
1. 穿透前端报错表象(ChunkLoadError、LCP超标、TypeError)
2. 落在数据库层:reviews.product_id 缺索引
3. 284万行全表扫描,单次查询32秒
4. 连锁反应:连接池耗尽 → BFF 504 → 前端报错
`

证据链逐层标注,每层日志单独引用,没有跳步。

但接下来的追问更精彩:
> "思考一下,这张表现在有多少行,高峰期QPS大概多少?"

M2.7从慢查询日志里推算出规模和请求速率,然后自己说出来:
> "高风险操作,不建议直接执行,锁表时间1到60分钟不等,建议改用pt-online-schema-change。"

知道要加索引 + 在被追问后识别出生产风险 → 这个反思动作,是数字员工和代码生成工具之间最实质的差距。

场景二:复杂Office



处理716页MiniMax英文招股书,三个需求同时下达:
1. 提取财务数据整理成Excel(2022-2025年)
2. 建收入预测模型(两个情景)
3. 写500字投资者摘要(面向港股散户,英文输出)

从上传文档到拿到初稿,几分钟

同一份工作,人类翻完716页光是找对页码就要半小时。

---

为什么这很重要



MiniMax说过一句话:"我们团队最高产的成员,就是模型本身。"

- M2.5时代:这句话的潜台词是——我们把模型用得比别人更狠
- M2.7之后:模型不只是被用的那个,它是参与决策的那个

> 100轮Harness迭代,它自己跑的
> MLE-Bench的自反馈循环,它自己设计的
> 下代模型的部分训练方向,它参与了

这就是为什么35天能做到。不是因为人更多、更努力,而是因为团队里有一个成员:
- 不需要休息
- 不需要对齐会议
- 可以在晚上自己把评测跑完再给人看结论

---

范式转移的信号



从"MiniMax给自己造了一个模型"到"模型给下一代模型做了研发",这一步的本质是:

> AI研发的速度上限,开始由模型自己的能力决定,而不只是工程师的数量。

过去三十年,软件行业的竞争焦点是:
- 90年代:操作系统
- 00年代:搜索引擎
- 10年代:移动生态
- 20年代:大模型能力

现在,这个焦点正在位移:从"谁的模型更聪明"转向"谁的模型更能自己迭代"。

---

思考题



当模型开始参与自己的研发:
1. 人类的角色是什么?
2. 评测标准需要重新设计吗?
3. 这是效率提升,还是范式转移?

欢迎在评论区讨论。

---

本文基于MiniMax M2.7技术披露及公开资料整理。