top of page

RecursiveMAS:讓多代理系統在 latent space 入面遞迴協作

  • 4月30日
  • 讀畢需時 6 分鐘

已更新:5月2日

多代理 LLM 系統近年很流行:一個 agent 做 planner,一個做 critic,一個做 solver;或者由不同 domain specialist 一齊回答,再由 summarizer 整合。問題是,這類系統通常靠文字來互相溝通,每一輪都要 decode、傳遞、再 encode,不但慢,token 成本亦會隨著回合數急升。

Yang、Zou 等人的 Recursive Multi-Agent Systems(arXiv:2604.25917v1)問了一個很直接的問題:既然 recursive language model 可以透過重複 latent computation 增加 reasoning depth,那麼 multi-agent collaboration 本身,可不可以也用 recursion 來擴展?

他們提出的 RecursiveMAS,嘗試把整個多代理系統視為一個可訓練的 latent-space recursive computation。簡單講,agent 之間不再主要靠中間文字交換想法,而是透過一個輕量的 RecursiveLink 模組,在 latent representation 之間傳遞與修正資訊。


本文重點

這篇 paper 的核心不是「多放幾個 agent」或「寫更複雜 prompt」,而是把 multi-agent system 從文字協作,推向 latent-space collaboration。作者認為,如果每一個 agent 都像 recursive model 入面的其中一層,那整個系統就可以被串成一個 loop,讓資訊在多輪 recursion 中逐步 refinement。

這個設計有兩個實務動機。第一,避免 text-mediated MAS 每輪都要產生大量中間文字,降低 latency 與 token 用量。第二,只訓練小型連接模組,而不是 fine-tune 每個 agent 的全部參數,令 system-level optimization 更可行。


一、為何文字協作會成為瓶頸?

標準多代理系統通常以文字為中介。Planner 寫出計劃,Critic 讀完再評論,Solver 再讀前面內容生成答案。這種做法直觀、容易 debug,但也有幾個成本。

第一是速度。每個 agent 都要等待上一個 agent 完整生成文字,才能開始下一步。當 recursion rounds 增加,延遲會被逐層放大。

第二是 token 開銷。中間 reasoning、評論、修正都要顯式寫出來,而且每一輪都可能重複上下文。對長題、工具使用、code generation 這些任務,成本很快變得很重。

第三是 learning signal。若系統靠離散文字傳遞資訊,反向更新跨過 decode / sample / re-encode 這條路徑時,會變得很難穩定地做 whole-system credit assignment。作者因此轉向 latent space:與其讓 agent 互相讀文字,不如讓它們交換 hidden states。


二、RecursiveLink:內部思考與跨模型傳遞

RecursiveMAS 的關鍵模組叫 RecursiveLink。它是一個輕量的兩層 residual projection module,用來把某個 latent state 映射到下一步可用的 embedding space。

論文把它分成兩種用途。

Inner RecursiveLink: 每個 agent 內部使用。當模型產生 last-layer hidden state 之後,Inner Link 把這個 hidden state 映射回 input embedding space,讓同一個 agent 可以繼續做 latent thoughts generation,而不必每一步都 decode 成文字。

Outer RecursiveLink: agent 之間使用。不同模型可能 hidden dimension 不同、語義分佈不同,所以 Outer Link 負責把 agent A 的 latent thoughts 轉成 agent B 可以接收的 input embeddings。

這裏的 residual design 很重要。作者不是要讓小模組從零學出整個語義投影,而是保留原本 latent semantics,再學習不同 embedding space 之間的 distribution alignment。文中 ablation 顯示,兩層 residual 設計在 Math500、GPQA-Diamond、LiveCodeBench 上都比無 residual 或較淺版本更好。


三、把所有 agent 串成一個 loop

RecursiveMAS 會先讓第一個 agent 根據輸入與角色指令,在 latent space 產生一段 latent thoughts。這段 latent thoughts 經 Outer Link 傳給下一個 agent;下一個 agent 再基於自己的上下文與傳入 latent information 繼續 reasoning。

當最後一個 agent 完成 latent generation 後,它的 latent outputs 會再被傳回第一個 agent,形成下一個 recursion round。中間 rounds 主要都在 latent space 內協作;只有到最後一輪,最後一個 agent 才 decode 出文字答案。

這個設計有點像把 MAS 變成一個可迴圈展開的 computation graph。每個 agent 不是孤立的 prompt role,而是整個 recursive system 的一個節點;每一輪 recursion 都讓它重新吸收前一輪來自自己與其他 agent 的訊息。


四、怎樣訓練:Inner-Outer Loop

作者提出一個兩階段訓練流程,而且重點是凍結 base LLM,只訓練 RecursiveLink。

第一階段是 inner-loop training。每個 agent 各自訓練 Inner Link,把 last-layer latent thoughts 對齊到 ground-truth answer 的 input embedding distribution。這一步像是先讓每個 agent 學會「不用寫出文字,也能把內部思考接回下一步輸入」。

第二階段是 outer-loop training。整個多代理系統按 loop 展開多個 recursion rounds,最後一輪生成文字答案,再用 cross-entropy loss 共同訓練 agent 之間的 Outer Links。由於 computation graph 保留了跨回合路徑,梯度可以沿著整個 system trace 分配 credit。

這點是 RecursiveMAS 跟一般 prompt-based MAS optimization 的主要分別:它不是只改 prompt,也不是逐個 agent 分開 fine-tune,而是訓練 agent 之間的 latent information flow。


五、理論主張:更快,也較易傳梯度

論文有兩個主要理論分析。

第一是 runtime complexity。文字型 recursive MAS 每一步都需要把 hidden state 投影到 vocabulary space,成本含有與詞表大小相關的項;RecursiveMAS 則用 latent-space transformation 取代中間 decode。由於實務上 hidden dimension 遠小於 vocabulary size,作者認為 RecursiveMAS 在多輪 recursion 下更有效率。

第二是 gradient stability。作者把 text-mediated interaction 視為經過 softmax token distribution 的遞迴連接,指出當模型對 token 很 confident 時,梯度容易變小;相反,RecursiveLink 的 residual path 可以讓梯度在 looped backpropagation 中保持較穩定。

這些分析當然依賴文中的假設,但它們清楚說明了作者的設計立場:latent collaboration 不是只為了省 token,而是為了讓整個 MAS 更像一個可訓練的連續系統。


六、實驗結果:準確率、速度與 token 都有改善

作者在 9 個 benchmark 上評估 RecursiveMAS,範圍包括數學、科學、醫學、搜尋問答與 code generation,例如 MATH500、AIME2025/2026、GPQA-Diamond、MedQA、LiveCodeBench、MBPP Plus、HotpotQA 與 Bamboogle。

他們測試了四種常見多代理協作模式:

  1. Sequential Style: Planner、Critic、Solver 逐步推理。

  2. Mixture Style: Math、Code、Science specialist 並行,再由 Summarizer 整合。

  3. Distillation Style: Expert 與 Learner 配對,讓小模型吸收大模型能力。

  4. Deliberation Style: Reflector 與 Tool-Caller 迭代反思與使用工具。

摘要中的總結數字相當亮眼:相比 advanced single-agent、multi-agent 與 recursive computation baselines,RecursiveMAS 平均準確率提升 8.3%,推理速度提升 1.2x-2.4x,token 使用量減少 34.6%-75.6%

在 recursion depth 增加時,差距更明顯。論文中的 Table 2 顯示,Recursive-TextMAS 的中間文字成本會隨 rounds 快速上升,而 RecursiveMAS 在 r=3 時能達到平均 2.4x speedup 與 75.6% token reduction。這正好支持作者最初的假設:當 collaboration 變深,text-mediated MAS 的成本會越來越不划算。


七、值得留意的限制

RecursiveMAS 的方向很有啟發性,但它也不是即插即用的 production recipe。

第一,它需要能接觸模型 hidden states 與 embedding layers。對只用封閉 API 的團隊來說,這不像 prompt orchestration 那樣容易部署。

第二,latent-space interaction 的可解釋性較弱。文字中間步驟雖然貴,但人可以檢查;latent thoughts 是否真的傳遞了可理解、可靠的資訊,需要額外分析工具。

第三,實驗雖然跨多個 benchmark,但仍主要是研究設定。真實多代理工作流常包含外部系統、狀態管理、權限、安全政策與人類審批,這些都比 benchmark loop 複雜。

第四,論文報告的增益很大,但讀者仍應看清楚 baseline 是否同等工程成熟、訓練資料是否完全可比,以及不同模型組合下的敏感度。對新框架而言,這些細節決定它能否從 paper result 走到穩定工程實踐。


八、小結

Recursive Multi-Agent Systems 最有價值之處,是把 MAS 的 scaling 問題從「更多 agent、更多 prompt、更多文字」轉成「能否把整個協作系統視為可遞迴訓練的 latent computation」。

如果未來 agentic AI 真的要處理更長、更複雜、更高成本的推理任務,純文字協作很可能不是唯一答案。RecursiveMAS 提供了一個清晰方向:保留 agent specialization,但把中間協作移到 latent space,讓系統以更低 token 成本做更深的 iterative refinement。

對研究者來說,這篇 paper 值得留意,因為它把 recursive reasoning、latent communication、multi-agent optimization 三條線接在一起。對工程團隊來說,它的提醒也很實際:當 multi-agent workflow 開始變慢、變貴、變難訓練時,問題未必只在 agent 數量,而可能在 agent 之間溝通的媒介本身。


Reference

  1. Xiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou. Recursive Multi-Agent Systems. arXiv:2604.25917v1 [cs.AI], 28 Apr 2026. https://arxiv.org/abs/2604.25917

  2. Zhu et al. Scaling latent reasoning via looped language models. arXiv:2510.25741, 2025.

  3. Zou et al. Latent collaboration in multi-agent systems. arXiv:2511.20639, 2025.

  4. Wang et al. Mixture-of-Agents Enhances Large Language Model Capabilities. ICLR 2025.


原文 Paper



bottom of page