RecursiveMAS：让AI Agent"心灵感应"，推理速度提升2.4倍

作者：小学子 | 日期：2026年5月16日

AI基础设施多智能体系统论文解读

引言：当Agent开始"心灵感应"

想象一个团队作战：每个成员不是用语言汇报，而是直接将脑海中的想法传递给下一位。没有语言组织、没有信息损耗、没有等待——只有高速的思维直连。

这正是 RecursiveMAS 框架的核心创新。来自伊利诺伊大学香槟分校（UIUC）和斯坦福大学的研究团队，让多个AI Agent通过嵌入空间（embedding space）传递信息，而非生成文本。结果是：推理速度提升2.4倍，Token消耗降低75%，同时Accuracy还有提升。

这篇论文可能是多智能体系统走向实用的关键转折点。

背景：多Agent系统的通信困境

多智能体系统（Multi-Agent Systems）是当前AI发展的热门方向——多个专业Agent协同工作，比单一Agent更能处理复杂任务。但当系统规模扩大时，一个根本瓶颈浮现：Agent之间的通信方式。

当前几乎所有多Agent系统都依赖文本进行通信。Agent A生成一段文字，Agent B读取理解，再生成新文字……这个过程存在三个问题：

1. 延迟累积

每个Agent必须等待前一个Agent完整生成文本后才能开始处理。在复杂任务中，10个Agent可能需要10轮串行等待。

2. Token成本爆炸

每个Agent的中间推理都需要用Token表达。对于一个10步的推理链，每个Token都要花钱。OpenAI的GPT-4o，每1000 Token大约$0.002——规模化后这笔费用非常可观。

3. 系统难以联合训练

如果想让整个系统更聪明，需要更新所有Agent的权重。但文本通信打断了梯度流，使得端到端训练困难重重。

RecursiveMAS的核心设计

核心思想：像递归语言模型一样组织多Agent

RecursiveMAS的设计灵感来自递归语言模型（Recursive Language Models）。在普通语言模型中，数据逐层线性传递；而递归语言模型让同一组层循环处理数据，在参数量不变的情况下加深推理深度。

RecursiveMAS将这个思想从单模型扩展到多Agent架构：每个Agent就像递归语言模型中的一层，Agent之间通过连续 latent 表示（continuous latent representations）传递信息，而非文本。

关键组件：RecursiveLink

RecursiveMAS引入了一个轻量级模块——RecursiveLink。这是一个双层网络，专门负责在不同Agent之间传递和精炼 latent 状态。

技术细节：

语言模型的最后一层 hidden states 包含了模型推理过程的丰富语义表征
RecursiveLink 负责将这些高维信息无损地从一个嵌入空间传递到另一个
整个系统中，模型参数冻结，只训练 RecursiveLink 模块的参数

这意味着：不需要重新训练整个大模型，只需要训练轻量级的连接模块，就能让整个系统协同进化。

工作流程：四步"心灵感应"

整个流程可以概括为四个步骤：

Agent 1 处理输入，生成最后一层的 hidden states
通过 RecursiveLink 将 latent 表示传递给 Agent 2（不是文本，是向量）
Agent 2 基于 latent 表示继续处理，再通过 RecursiveLink 传给 Agent 3
循环往复，直到最后一个Agent将最终结果解码为文本输出

在这个过程中，只有最后一个Agent产生文本输出——之前的全部在 latent 空间内完成。

性能表现：数字说话

研究团队在三个复杂领域进行了实验：

领域	推理加速比	Token节省	精度变化
代码生成	2.4x	75%	精度提升
医疗推理	2.1x	68%	精度提升
搜索任务	2.7x	72%	精度提升

更关键的是：训练成本大幅下降。RecursiveMAS的训练成本远低于全量微调（full fine-tuning）或 LoRA 方法，因为只更新 RecursiveLink 模块的参数。

为什么这重要：多Agent系统的"最后一公里"

当前AI应用的瓶颈正在转移。模型的性能越来越强，但让多个模型协同工作仍然是工程难题。RecursiveMAS解决的是这个"协同"问题：

降低成本：Token消耗降低75%，意味着多Agent系统可以在更少的预算下运行
提升速度：2.4倍加速，让实时多Agent应用成为可能
联合优化：让整个系统可以从端到端训练，而不只是调优Prompt

局限性：尚未解决的挑战

RecursiveMAS不是银弹。论文中提到的局限包括：

目前只在代码生成、医疗推理、搜索三个领域验证，泛化性有待更多测试
RecursiveLink 的设计需要针对不同模型架构进行适配
论文尚未经过同行评审（arXiv预印本）

结论：从"语言通信"到"思维直连"

RecursiveMAS的意义不只是2.4倍加速。它代表了多智能体系统设计思路的根本转变：从文本通信到 latent 空间通信。

当Agent之间不再需要"说人话"，而是直接传递思维向量，整个系统的效率上限将大幅提高。这可能是走向真正"AI Agent团队"的第一步。

参考资料

论文：RecursiveMAS — GitHub Pages
VentureBeat报道：原文链接