Codex 配 Superpowers 的 AGENTS.md 到了 V3：这次真正跑通了

用 Codex 配 Superpowers 跑过并行任务吗？

跑着跑着，子代理就卡在那里不动了。日志里什么都输出，Codex 也在运行，可就是不出结果。你去翻 AGENTS.md，里面写的是 wait。错了。正确的写法是 wait_agent。

这是 V2 版本踩过的坑。现在 V3 把这个问题修了，还顺手精简了整个流程。

为什么 V3 不是简单升级

V1 和 V2 的 AGENTS.md 试水性质比较浓。V1 讲究任务分流，V2 在这个基础上加了自动判断，叙述重复、逻辑冗长，上下文占了一堆，跑起来效果一般。

V3 干了三件事：精简分流流程（把绕来绕去的判断条件压扁了），修子代理等待 bug（用 wait_agent 替 wait，向 Superpowers 提过 PR），加并行优先化（writeplan 后自动研究并行可行性）。

结果就是：上下文更短了，但覆盖场景反而更完整了。

AGENTS.md 优先级逻辑：四层覆盖

AGENTS.md 不是随便写，它是按优先级生效的。从高到低：

1. 当前会话中用户的明确要求
2. 仓库自身规则、文档与约定
3. 本 AGENTS.md
4. 相关 Superpowers / skill 流程定义

Codex 启动时会读取 ~/.codex/AGENTS.md（全局）和项目根目录的 AGENTS.md（项目级），项目级覆盖全局，逻辑和 .gitignore 一样。

这个设计的好处是：你在公司项目里套一层公司的规范，回家开个人项目又有另一套规矩，两边互不干扰。

轻重分流：让 AI 学会偷懒

V3 里最核心的原则就一句话：适合并行的优先并行，不适合的才串行。

“偷懒"这个词在这里是褒义。AI 如果遇到一个小任务，比如改一行配置或者修一个单文件的 bug，你让它走完整的 brainstorming、writing-plans、implementation、review 全套流程，等于让大厨去炒一盘蛋炒饭还要写菜品设计文档。

V3 把任务分成两类：

只读任务：分析、解释、架构说明、代码阅读，直接处理，不进实现流程。
轻量任务：单文件修改、明确 bug 修复、配置调整，跳过 brainstorming 和重 review，直接实现。

剩下就是重量任务。新功能、公共 API、并发逻辑、大规模重构——这些老老实实走完整流程。

这里的关键不是"什么时候降级”，而是"什么时候升级"。改动超出初始判断、涉及共享 contract、需求不清晰——这些信号一出现，立刻升级到更重流程，而不是硬撑着走轻路径。

并行开发的正确打开方式

V3 在并行这块下了重手。

子代理派发有硬性规定：model 和 reasoning_effort 必须显式设置。模型只允许用 gpt-5.4 和 gpt-5.3-codex，默认用 gpt-5.4。推理强度只允许 high 或 xhigh，有歧义一律上调。

这个限制初看有点死板。随手选个不匹配的模型，子代理产出质量飘忽，整个并行策略就废了。

调度闭环也写死了：

spawn_agent → 记录 agent_id → wait_agent 等待 → 收集结果 → close_agent

不能用普通命令等待替代子代理等待语义。这条规则卡死了，并行才能真正跑通。

并行准入也划了线：任务可拆为 2 到 4 个边界清晰的子任务，scope_write/scope_read 明确，可独立验证，无明显同文件写冲突——才适合并行。

如果改动集中在 1 到 2 个核心文件，涉及 shared contract 或 shared types，或者拆分后返工整合风险明显增加——老实串行，别硬拆。

Ownership 规则也很直接：禁止两个子任务同时改同一个文件、同一个配置源、同一个 contract。package.json、lockfile、根级 build/lint/test 配置、CI、schema、migration、公共适配层——默认串行或统一收尾。

子代理等待的坑：wait vs wait_agent

这是 V2 到 V3 之间踩出来的坑。

很多人在 AGENTS.md 里写的是 wait，结果子代理就卡在那里。原因是 wait 的语义和你想的不一样——它不会等子代理真正产出结果，它只是等待一段时间然后继续。

wait_agent 才是正确的选择：它会等子代理完成任务或者真正阻塞，再返回控制权。

这个 bug 已经在 Superpowers 的代码里修了，V3 的 AGENTS.md 用的就是修正后的语义。

Codex 测试分级：不是每个任务都需要 TDD

V3 给了四个测试级别，按场景选择：

Level 0：定向验证 — 局部、低风险、小改动
Level 1：回归测试 — 中小修复或局部行为变化
Level 2：TDD — 新功能、明确行为变更、共享逻辑
Level 3：Code Review — 遵循 review 规则
Level 4：Completion Verification — 完成前最终验证

TDD 不是默认选项。按"行为影响、共享范围、回归风险、测试价值"这四个维度显式判定要不要 TDD。

很多团队一听到 AI 编程辅助就想着全上 TDD，结果 AI 生成一堆测试，真正的核心逻辑反而没覆盖。V3 的建议是：定向验证先走，覆盖关键路径，测试价值不高的场景不强求。

commit 规范：说人话，别废话

格式是 <type>(scope): <summary>，scope 可选，summary 用中文、动词开头、长度不超过 50 字、不加句号。

常用 type：feat / fix / refactor / docs / test / chore

举例：fix(auth): 修复 token 过期后不刷新

AGENTS.md 完整配置

这份 AGENTS.md 整合了上面所有规则。复制到 ~/.codex/AGENTS.md 或者项目根目录，按需调整。

# 全局 Agent 规则

## 指令优先级
1. 当前会话中用户的明确要求
2. 仓库自身规则、文档与约定
3. 本 AGENTS.md
4. 相关 Superpowers / skill 流程定义

## 默认原则

### 最短路径与并行轻重分流
- 默认采用"满足质量要求的最短路径"
- 默认先判断任务是否适合并行；适合则优先并行，不适合再串行
- 能直接完成并验证的，不升级为更重流程
- 能用轻量 planning 解决的小任务，不升级为重文档流程
- 能用单一专项 skill 解决的，不扩展为 full Superpowers

### 轻量任务默认策略
- 轻量任务：单文件修改、明确 bug 修复、配置调整、小测试补充
- 默认可跳过完整 brainstorming、writing-plans、using-git-worktrees 与重 review 链
- 提问：轻量任务首次最多问 1 个关键问题；中任务优先一次性给 2 到 3 个方案
- 默认授权边界：当前分支内可默认修改直接相关的应用代码、测试、局部文档
- 以下操作必须确认：删除文件、大规模重构、shared contract、根配置、CI、数据库变更

### 流程升级 / 降级
- 升级：影响边界超出初始判断、涉及公共 API / schema / 持久化 / 并发、需求不清晰
- 降级：改动局部边界清晰、不涉及共享核心逻辑、验证直接

## 任务分流模型

### 只读任务
- 分析、解释、架构说明、代码阅读——直接处理
- 问题排查优先用 systematic-debugging

### 实现任务
- 默认流程：brainstorming -> writing-plans -> implementation
- 轻量版 planning 至少明确：目标、边界、风险、验证方式
- Review 用 requesting-code-review / receiving-code-review
- 完成前执行 verification-before-completion

## 并行开发总控

### 子代理派发
- spawn_agent 必须显式设置 model 和 reasoning_effort
- 模型仅允许 gpt-5.4（默认）和 gpt-5.3-codex
- reasoning_effort 仅允许 high 或 xhigh

### 调度闭环
- spawn_agent → 记录 agent_id → wait_agent 等待 → 收集结果 → close_agent
- 不要用普通命令等待替代子代理等待语义

### 并行准入
- 适合并行：可拆 2-4 个边界清晰、可独立验证的子任务
- 不适合并行：改动集中在 1-2 个核心文件、涉及 shared contract、需要独立分支隔离

### 收尾整合
- 子任务完成后必须统一收尾
- 至少包括：汇总改动、检查冲突面、运行最终验证、输出 merge plan

## 测试策略
- Level 0：定向验证（局部、低风险）
- Level 1：回归测试（中小修复）
- Level 2：TDD（新功能、共享逻辑、高风险改动）
- Level 3：Code Review
- Level 4：Completion Verification

## commit 规范
- 格式：<type>(scope): <summary>
- 常用 type：feat / fix / refactor / docs / test / chore
- summary：中文、动词开头、≤50 字、不加句号

## Safety Rules
- 不运行破坏性命令（git reset 等），除非用户明确要求
- 不使用非 Git 工具操作 .git
- 不将密钥、API Key 硬编码进源码
- 数据库访问使用参数化查询
- 不用不可信输入拼接 shell 命令或 SQL

## 技能调用
主干整合方式：
- 实现前：brainstorming -> writing-plans
- debug：systematic-debugging
- review：requesting-code-review / receiving-code-review
- 完成前：verification-before-completion
- 前端设计：ui-ux-pro-max

用起来的几个建议

拿到这份 AGENTS.md，不要直接全量上。先挑一个中等规模的项目试水，观察 Codex 的行为是否符合预期。

重点盯几个信号：并行任务有没有真的在同时跑，子代理有没有出现"假死"（看起来在运行但不出结果），commit message 的格式有没有被正确遵循。

这几个点没问题，再迁移到其他项目。

FAQ

Q: 全局 AGENTS.md 和项目级 AGENTS.md 同时存在时哪个生效？

项目级覆盖全局。Codex 会把两个文件的内容合并，项目级的规则优先级更高。

Q: 子代理卡死了怎么办？

先检查是不是还在用 wait 而不是 wait_agent。V3 的配置里已经统一用 wait_agent。如果问题依旧，检查任务是否真的适合并行——有些场景拆分后整合成本反而更高。

Q: 轻量任务不想跳过 brainstorm 可以吗？

可以。AGENTS.md 是默认规则，用户在当前会话提出明确要求时，优先级高于 AGENTS.md。

顺便分享一个我常用的 AI自媒体运营工具，覆盖内容排版、素材处理和效率提效，写公众号会更省力。

最近在玩 Claude Code 的新功能，发现官方出了个 Codex 增强版门户，把各种智能编程能力整合在一起了，感兴趣可以去看看。

如果你想看到更多这类工具测评和 AI 编程实战，欢迎关注我的公众号「梦兽编程交个朋友」，每周更新。

为什么 V3 不是简单升级#

AGENTS.md 优先级逻辑：四层覆盖#

轻重分流：让 AI 学会偷懒#

并行开发的正确打开方式#

子代理等待的坑：wait vs wait_agent#

Codex 测试分级：不是每个任务都需要 TDD#

commit 规范：说人话，别废话#

AGENTS.md 完整配置#

用起来的几个建议#

FAQ#