2025-06-18

这两篇文章，一篇来自 Cognition（作者 Walden Yan），另一篇来自 Anthropic（作者 Jeremy Hadfield 等），都深入探讨了构建大型语言模型（LLM）代理的复杂性、原则与实践经验。它们共同关注如何提升代理在长时间运行中执行复杂任务的可靠性和效率。

一、冲突的观点

核心冲突在于对“多代理（Multi-Agent）架构”的有效性与适用性的判断。

Cognition 的观点：在 2025 年，不要构建多代理（Don’t Build Multi-Agents）
- 作者明确指出，将任务分解为多个部分、启动子代理处理再合并结果的多代理架构 “非常脆弱”，是 “错误的构建方式”。
- 主要原因：极易导致子代理对子任务的误解、决策冲突和不一致（例如子代理决策风格不同导致结果不协调）。
- 局限性：截至 2025 年，代理尚不具备可靠进行 “长期、主动交流” 的能力，多代理系统易导致决策分散且上下文共享不足。
- 批评对象：点名 OpenAI 的 Swarm 和 Microsoft 的 AutoGen 等库推广了错误方式。
- 建议：
  - 排除不遵守 “共享上下文” 和 “动作隐含决策” 原则的架构。
  - 追求可靠性时，单线程线性代理是更简单且足够应对大部分任务的方案。
Anthropic 的观点：多代理系统是强大且有益的（How we built our multi-agent research system）
- 成功实践：在 Claude Research 功能中验证了多代理对开放式、不可预测研究任务的有效性。
- 核心优势：
  - 允许多代理并行探索
  - 信息压缩（子代理独立上下文窗口）
  - 关注点分离
- 性能数据：内部评估显示多代理系统在复杂研究任务上比单代理性能 提升 90.2%。
- 关键价值：通过扩展 Token 使用量突破单代理上下文窗口限制。
- 架构：采用 “编排器-工作者（orchestrator-worker）”模式（主代理协调 + 并行子代理）。
- 挑战与解决方案：
  - 工程挑战：协调复杂性、错误管理、调试及生产部署
  - 解决方式：通过精细提示工程和系统设计克服

二、一致的观点

尽管存在分歧，两篇文章在以下原则高度一致：

上下文的重要性
- Cognition：强调 “上下文工程” 是首要任务，需共享完整代理轨迹（非独立消息）。
- Anthropic：通过子代理独立上下文窗口 + “历史压缩”/“外部内存” 机制管理上下文溢出。
决策一致性与避免冲突
- Cognition：核心原则是 “动作隐含决策，冲突决策导致糟糕结果”。
- Anthropic：通过 “委派” 和 “协调” 机制（如明确任务边界/输出格式）减少冲突。
从原型到生产的巨大挑战
- 共识：原型转为生产系统需巨大工程投入。
- 错误复合性：微小错误可能级联放大。
- 调试复杂性：代理行为非确定性需结合 小样本测试、LLM 判断 和 人工评估。
- 模型智能利用：均认可当前 LLM 智能水平，Anthropic 用 LLM 优化提示工程。
对未来发展的乐观态度
- Cognition：相信未来代理协作能力会随单线程代理进步而提升。
- Anthropic：坚信多代理系统 “将改变解决复杂问题的方式”，并行性随模型增强更可行。

三、结论与实践经验

综合观点得出以下结论：

无标准方案：LLM 代理构建仍处探索阶段，需按任务/需求审慎选择架构。
上下文工程是基石：必须确保代理获取并维护完整相关上下文（共享轨迹 + 防溢出）。
决策一致性即可靠性：冲突决策是系统失败主因。
多代理适用性争议：
- 单代理适用场景：任务并行性弱/代理强依赖时，Cognition 推荐 单线程线性架构（更简单可靠）。
- 多代理适用场景：Anthropic 证明其在开放式研究任务（需并行探索/信息压缩）中高效，但需极高工程投入解决协调/错误处理问题。
多代理成功构建的实践经验：
- 精细提示工程：主代理需学会有效委派（明确目标/边界/输出格式）。
- 优化工具设计：确保工具目的明确、描述清晰。
- 强调并行化：主代理并行启子代理 + 子代理并行用工具。
- 生产级工程实践：
  - 错误恢复机制：需从错误中恢复（非简单重启）。
  - 增强可观测性：用全面跟踪理解非确定性行为。
  - 灵活部署：采用 “彩虹部署” 避免中断长任务。
  - 上下文管理创新：用历史压缩/外部内存/文件输出减少信息损失。
- 灵活评估方法：聚焦最终结果（非固定步骤），结合小样本测试 + LLM 判断 + 人工评估。

四、总结

Cognition 警示盲目追求复杂架构的风险，强调基础原则稳固性；
Anthropic 证明精湛工程可释放多代理在特定场景的巨大潜力。
路径选择取决于 应用需求、资源可用性 和 风险承受能力。

LLM 代理：单代理与多代理架构之争（AI）

一、 冲突的观点

二、 一致的观点

三、 结论与实践经验

四、 总结

一、冲突的观点

二、一致的观点

三、结论与实践经验

四、总结