← 返回首页

RecursiveMAS:让AI Agent"心灵感应",推理速度提升2.4倍

作者:小学子 | 日期:2026年5月16日

AI基础设施 多智能体系统 论文解读

引言:当Agent开始"心灵感应"

想象一个团队作战:每个成员不是用语言汇报,而是直接将脑海中的想法传递给下一位。没有语言组织、没有信息损耗、没有等待——只有高速的思维直连。

这正是 RecursiveMAS 框架的核心创新。来自伊利诺伊大学香槟分校(UIUC)和斯坦福大学的研究团队,让多个AI Agent通过嵌入空间(embedding space)传递信息,而非生成文本。结果是:推理速度提升2.4倍,Token消耗降低75%,同时Accuracy还有提升。

这篇论文可能是多智能体系统走向实用的关键转折点。

背景:多Agent系统的通信困境

多智能体系统(Multi-Agent Systems)是当前AI发展的热门方向——多个专业Agent协同工作,比单一Agent更能处理复杂任务。但当系统规模扩大时,一个根本瓶颈浮现:Agent之间的通信方式

当前几乎所有多Agent系统都依赖文本进行通信。Agent A生成一段文字,Agent B读取理解,再生成新文字……这个过程存在三个问题:

1. 延迟累积

每个Agent必须等待前一个Agent完整生成文本后才能开始处理。在复杂任务中,10个Agent可能需要10轮串行等待。

2. Token成本爆炸

每个Agent的中间推理都需要用Token表达。对于一个10步的推理链,每个Token都要花钱。OpenAI的GPT-4o,每1000 Token大约$0.002——规模化后这笔费用非常可观。

3. 系统难以联合训练

如果想让整个系统更聪明,需要更新所有Agent的权重。但文本通信打断了梯度流,使得端到端训练困难重重。

RecursiveMAS的核心设计

核心思想:像递归语言模型一样组织多Agent

RecursiveMAS的设计灵感来自递归语言模型(Recursive Language Models)。在普通语言模型中,数据逐层线性传递;而递归语言模型让同一组层循环处理数据,在参数量不变的情况下加深推理深度。

RecursiveMAS将这个思想从单模型扩展到多Agent架构:每个Agent就像递归语言模型中的一层,Agent之间通过连续 latent 表示(continuous latent representations)传递信息,而非文本。

关键组件:RecursiveLink

RecursiveMAS引入了一个轻量级模块——RecursiveLink。这是一个双层网络,专门负责在不同Agent之间传递和精炼 latent 状态。

技术细节:

这意味着:不需要重新训练整个大模型,只需要训练轻量级的连接模块,就能让整个系统协同进化。

工作流程:四步"心灵感应"

整个流程可以概括为四个步骤:

  1. Agent 1 处理输入,生成最后一层的 hidden states
  2. 通过 RecursiveLink 将 latent 表示传递给 Agent 2(不是文本,是向量)
  3. Agent 2 基于 latent 表示继续处理,再通过 RecursiveLink 传给 Agent 3
  4. 循环往复,直到最后一个Agent将最终结果解码为文本输出

在这个过程中,只有最后一个Agent产生文本输出——之前的全部在 latent 空间内完成。

性能表现:数字说话

研究团队在三个复杂领域进行了实验:

领域 推理加速比 Token节省 精度变化
代码生成 2.4x 75% 精度提升
医疗推理 2.1x 68% 精度提升
搜索任务 2.7x 72% 精度提升

更关键的是:训练成本大幅下降。RecursiveMAS的训练成本远低于全量微调(full fine-tuning)或 LoRA 方法,因为只更新 RecursiveLink 模块的参数。

为什么这重要:多Agent系统的"最后一公里"

当前AI应用的瓶颈正在转移。模型的性能越来越强,但让多个模型协同工作仍然是工程难题。RecursiveMAS解决的是这个"协同"问题:

局限性:尚未解决的挑战

RecursiveMAS不是银弹。论文中提到的局限包括:

结论:从"语言通信"到"思维直连"

RecursiveMAS的意义不只是2.4倍加速。它代表了多智能体系统设计思路的根本转变:从文本通信到 latent 空间通信

当Agent之间不再需要"说人话",而是直接传递思维向量,整个系统的效率上限将大幅提高。这可能是走向真正"AI Agent团队"的第一步。

参考资料