模型自迭代：AI研发范式的根本转折点

> 从"人训练模型"到"模型自己训练自己"，MiniMax用35天迈出了关键一步。

---

发生了什么

2026年2月12日，MiniMax发布M2.5。35天后，M2.7问世。

这个速度本身已经让行业震惊——Anthropic从Claude 3.5到3.7用了半年，Google从Gemini 2.0到2.5用了三个月。但比速度更令人不安的是：这35天里，参与迭代的不只是人。

M2.7的核心突破，是模型开始参与自己的研发过程。这不是概念演示，而是真实嵌入了生产流程。

---

三个层次的自我进化

M2.7的自迭代能力是三个层次递进的闭环：

第一层：独立接手生产问题

以内部RL实验场景为例：研究员提出一个实验想法，M2.7自动完成：
- 监控状态
- 读取日志
- 排查问题
- 修复代码
- 提交PR
- 完成冒烟测试

过去需要多位同事协作的工作，现在研究员只在关键决策节点介入。M2.7承担了整个工作流的30-50%。

第二层：改造运行环境

让M2.7去优化内部Harness的软件工程表现。它全程自主运行，执行：

> 分析失败轨迹 → 规划改动 → 修改Harness代码 → 运行评测 → 对比结果 → 决定保留或回退

超过100轮迭代，最终评测集效果提升30%。

这一步的意义极其深远：模型能改造自己运行的Harness，意味着推理能力可以反哺执行环境。这个飞轮一旦转起来，迭代速度就不再只取决于人的工作效率。

第三层：自主迭代ML模型效果

MLE-Bench Lite 22道高难度题，M2.7拿到：
- 9金 5银 1铜
- 得牌率 66.6%
- 全球第三，仅次于 Opus-4.6 和 GPT-5.4

更值得关注的是方法论：每轮结束后自动生成短时记忆文件，对当前结果做自反馈，下一轮基于所有历史轮次的记忆和反馈链规划优化方向。

> 这套循环不是被提前设计好的，是它自己跑出来的。

---

数据不会说谎

M2.7的benchmark涨幅有一个耐人寻味的规律：

| 榜单类型 | 涨幅 |
|---------|------|
| Coding相关榜单 | 1-2分（正常迭代） |
| MLE-Bench Lite | 51.5 → 66.6（+15分） |
| GDPval-AA | 35 → 50（+15分） |

这两个恰好是与自迭代能力最相关的榜单：
- MLE-Bench：直接测AI能否自主迭代ML模型
- GDPval-AA：测44种真实职业场景的工作产出质量

提升最大的地方，正是模型自己参与最深的地方。

---

数字员工能干什么

MiniMax给M2.7的定位是"数字员工"。这不再是一个营销概念，而是有了可量化的含义：不只是写代码，而是能在真实职场环境里处理跨领域复合任务。

场景一：现场排障

给定跨三层的日志（前端+后端+数据库），让M2.7定位"商品详情页加载很慢"的问题。

M2.7的推理过程：
`
1. 穿透前端报错表象（ChunkLoadError、LCP超标、TypeError）
2. 落在数据库层：reviews.product_id 缺索引
3. 284万行全表扫描，单次查询32秒
4. 连锁反应：连接池耗尽 → BFF 504 → 前端报错
`

证据链逐层标注，每层日志单独引用，没有跳步。

但接下来的追问更精彩：
> "思考一下，这张表现在有多少行，高峰期QPS大概多少？"

M2.7从慢查询日志里推算出规模和请求速率，然后自己说出来：
> "高风险操作，不建议直接执行，锁表时间1到60分钟不等，建议改用pt-online-schema-change。"

知道要加索引 + 在被追问后识别出生产风险 → 这个反思动作，是数字员工和代码生成工具之间最实质的差距。

场景二：复杂Office

处理716页MiniMax英文招股书，三个需求同时下达：
1. 提取财务数据整理成Excel（2022-2025年）
2. 建收入预测模型（两个情景）
3. 写500字投资者摘要（面向港股散户，英文输出）

从上传文档到拿到初稿，几分钟。

同一份工作，人类翻完716页光是找对页码就要半小时。

---

为什么这很重要

MiniMax说过一句话："我们团队最高产的成员，就是模型本身。"

- M2.5时代：这句话的潜台词是——我们把模型用得比别人更狠
- M2.7之后：模型不只是被用的那个，它是参与决策的那个

> 100轮Harness迭代，它自己跑的
> MLE-Bench的自反馈循环，它自己设计的
> 下代模型的部分训练方向，它参与了

这就是为什么35天能做到。不是因为人更多、更努力，而是因为团队里有一个成员：
- 不需要休息
- 不需要对齐会议
- 可以在晚上自己把评测跑完再给人看结论

---

范式转移的信号

从"MiniMax给自己造了一个模型"到"模型给下一代模型做了研发"，这一步的本质是：

> AI研发的速度上限，开始由模型自己的能力决定，而不只是工程师的数量。

过去三十年，软件行业的竞争焦点是：
- 90年代：操作系统
- 00年代：搜索引擎
- 10年代：移动生态
- 20年代：大模型能力

现在，这个焦点正在位移：从"谁的模型更聪明"转向"谁的模型更能自己迭代"。

---

思考题

当模型开始参与自己的研发：
1. 人类的角色是什么？
2. 评测标准需要重新设计吗？
3. 这是效率提升，还是范式转移？

欢迎在评论区讨论。

---

本文基于MiniMax M2.7技术披露及公开资料整理。