AI Agent 编排系统精选

整理自 Twitter 两篇关于 AI Agent 编排的深度文章

文章一：OpenClaw + Codex/ClaudeCode Agent Swarm

核心观点

Elvis 分享了他如何使用 OpenClaw 作为编排层，配合 Codex 和 Claude Code 构建了一个完整的 AI Agent 工作流系统。

关键数据

94 commits in one day - 最高产的一天，有3个客户会议，一次代码编辑器都没打开
7 PRs in 30 minutes - 从想法到生产环境极快
平均每日 ~50 commits
成本: ~$100/月 Claude + $90/月 Codex（最低可从$20开始）

系统架构

┌─────────────────────────────────────────────┐
│              Zoe (OpenClaw)                 │
│         编排器 - 持有业务上下文              │
└─────────────┬───────────────────────────────┘
              │
    ┌─────────┼─────────┐
    ▼         ▼         ▼
┌───────┐ ┌───────┐ ┌───────┐
│ Codex │ │Claude │ │Gemini │
│ 主力  │ │ 前端  │ │ 设计  │
└───────┘ └───────┘ └───────┘

8步工作流

客户需求 → Zoe 梳理范围 - 自动拉取会议笔记，确定功能方案
生成 Agent - 每个 agent 获得独立 worktree 和 tmux session
循环监控 - 每10分钟检查 agent 状态
Agent 创建 PR - 自动提交、推送、创建 PR
自动代码审查 - Codex、Gemini、Claude 三重审查
自动化测试 - Lint、单元测试、E2E、Playwright
人工审查 - 5-10分钟，很多 PR 直接合并
合并 - 自动清理 worktree

代码审查分工

审查者	特点	评价
Codex	边缘案例专家	逻辑错误、竞态条件，误报率极低
Gemini Code Assist	安全/扩展性	免费，捕获安全问题，建议具体修复
Claude Code	偏保守	经常”考虑添加…“，除非标记为关键否则跳过

自改进循环（Ralph Loop V2）

当 agent 失败时，Zoe 不只是重新生成相同 prompt：

上下文不足? → “只关注这三个文件”
方向错误? → “客户想要的是 X，不是 Y”
需要澄清? → “这是客户的邮件和公司背景”

Agent 选型指南

Codex - 主力，后端逻辑、复杂 bug、多文件重构（90%任务）
Claude Code - 前端工作更快，git 操作权限问题少
Gemini - 设计感强，先生成 HTML/CSS 规范，再交给 Claude 实现

文章二：自改进 AI 系统 Agent Orchestrator

作者: @agent_wrapper (prateek @ Composio)
来源: Twitter/X
开源仓库: github.com/ComposioHQ/agent-orchestrator

核心观点

真正的瓶颈不是 AI 编码能力，而是人的注意力。作者构建了一个智能编排器 agent，代替人类管理其他 coding agents。

关键数据

40,000 行 TypeScript
17 个插件
3,288 个测试
8 天完成（实际专注时间约 3 天）
27 PRs 单日合并记录（2月14日周六）
700+ 自动化代码审查评论
84.6% CI 成功率，41 次 CI 失败全部自愈

模型分工（通过 Git Trailers 追踪）

模型	提交数	角色
Claude Opus 4.6	340	复杂架构、跨包集成
Claude Sonnet 4.5	311	插件实现、测试、文档
Claude Opus 4.5	60	复杂任务
GPT-5.3 Codex	11	后端逻辑

插件架构（8个可替换槽位）

┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ Tracker  │ │ Workspace│ │ Runtime  │ │  Agent   │
│ 任务追踪  │ │ 工作空间  │ │ 运行环境  │ │ 编码Agent│
└──────────┘ └──────────┘ └──────────┘ └──────────┘
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ Terminal │ │   SCM    │ │ Reactions│ │ Notifier │
│ 终端观察  │ │ 代码管理  │ │ 事件响应  │ │ 通知系统  │
└──────────┘ └──────────┘ └──────────┘ └──────────┘

自愈合 CI 系统

** ao-58 案例** - PR #125（仪表板重设计）：

经历 12 次 CI 失败 → 修复 循环
零人工干预，最终干净发布

活动检测

Claude Code 在每次会话中写入结构化 JSONL 事件文件，编排器直接读取：

是否在生成 token？
是否在等待工具执行？
是否空闲？
是否完成？

Web 仪表盘功能

Attention Zones - 按需关注分组（CI失败/待审查/运行正常）
Live Terminal - xterm.js 实时显示 agent 终端输出
Session Detail - 当前编辑文件、最近提交、PR/CI 状态
Config Discovery - 自动发现 ao.config.yaml

自我改进循环

Agents 构建功能
      ↓
编排器观察什么有效
      ↓
调整未来会话管理方式
      ↓
Agents 构建更好的功能
      ↓
（循环复利）

未来方向

随时随地与 agents 对话 - Telegram/Slack 集成
更紧的会话中反馈 - 在 agent 跑题20分钟前纠正
自动升级 - Agent 无法解决 → 编排器 → 人类判断
自动冲突解决 - 并行 agent 之间的协调
云端部署 - Docker/K8s 运行时

两篇文章对比

维度	OpenClaw 方案	Agent Orchestrator
编排器	Zoe (OpenClaw)	TypeScript 编写的 Agent Orchestrator
运行环境	本地 Mac Mini	本地，支持 tmux/process 运行时
代码审查	3个 AI + 人工	Cursor Bugbot + 自动化
自我改进	Zoe 根据失败调整 prompt	完整的性能追踪和回顾系统
开源	配置分享	完全开源
硬件瓶颈	16GB RAM 限制 4-5 agents	未明确

关键洞察

上下文是零和游戏 - 单一 AI 无法同时掌握代码和业务上下文，需要分层
编排器必须也是 AI - 不是脚本或仪表盘，而是理解代码库和业务的 agent
人的注意力是真正的瓶颈 - 系统应只向人类展示需要决策的事项
信号不要丢弃 - 每次会话的成败数据应反馈改进未来 prompt
递归自改进 - Agents 构建编排器 → 编排器让 agents 更有效 → agents 改进编排器

整理时间: 2026-02-24
来源: Twitter/X 精选