Superpowers 演变分析

§ 00 — Abstract

主线 ✕ 三力

几乎每一次重要修改,都对应某种真实观察到的 agent 失败模式。这不是普通的演变史,而是一部失败 → 修复 → 验证的循环日志。

A Single Through-Line

整个演变可压缩为一条核心命题:

让 agent 在面对"快速跳过工程纪律的诱惑"时,依然遵守 brainstorming → writing-plans → executing-plans → verification 的工作流。

围绕这条主线,项目内部存在三种持续拉锯的力量。每一次 commit,都是这三种力量的一次再平衡。

— 力一 —

Add structure ↔ Simplify

加结构 · 去结构

HARD-GATE / checklist / dot graph 不断在堆叠与精简之间反复。过度工程会引发简化反弹;过度简化又导致 agent 跳过流程。

— 力二 —

Subagent review ↔ Inline self-review

外审回路 · 内审自校

subagent 审查曾被认为"显然有用"。直到 5 版本 × 5 试验的回归矩阵证明它零边际价值—— 实证否决了直觉。

— 力三 —

Multi-platform ↔ Core stability

扩展平台 · 稳住核心

支持 Claude Code、OpenCode、Codex、Gemini、Cursor、Copilot 共 6 个 harness 的同时,核心 14 个 skill 不能漂移。

§ 01 — Monthly Pulse

两次心跳

活跃度有明显双高峰。第一次在创世月,定型 skills 体系;第二次在 v5 发布月,引入可视化与实证驱动的反转。

2025-10 ★

115 commits

创世 + skills 体系定型 + 心理工程奠基

2025-11

OpenCode 接入 + 稳定化

2025-12

v4.0.0 测试基础设施大爆发

2026-01

持续打磨

2026-02

Codex native + Cursor + Windows 硬化

2026-03 ★

124 commits

v5.0.0 可视化 + 审查回路实证否定 + 多平台收官

2026-04

收尾、Codex 同步工具完善

§ 02 — Five Stages

演变的五个章节

从混乱的第一日 → 心理工程加固 → 测试基础设施大爆发 → 多平台扩张 → 实证否定与收官。

Stage I

起源与第一日的混乱

2025-10-09 ~ 10-15

7 小时内 14 commits。SessionStart hook 反复调试,persuasion research 与 TDD-for-skills 同日诞生。

Stage II

ii.

稳定化与心理工程加固

v3.1 ~ v3.6 · 约 7 周

v3.2.2 把"反 rationalization"提升为一等设计目标。OpenCode 首次跨平台支持。

Stage III

iii.

测试基础设施大爆发

v4.0.0 · 2025-12-17

39 个 commits 引入 skill 测试框架、DOT 图作为一等设计语言、HARD-GATE 机制。从直觉转向测试驱动。

Stage IV

iv.

多 harness 时代

v4.0 ~ v4.3 · 2 个月

Codex native、Gemini、Cursor 接入。Windows 兼容性持续硬化。一个 harness 接入往往需要 10-30 commits。

Stage V

可视化、实证否定与收官

v5.0 ~ v5.0.7 · 2026-03~04

引入可视化 brainstorm,5 版本 × 5 试验否决了 subagent review。Copilot 收官,共支持 6 个 harness。

§ 03 — Day Zero

创世日 · 7 小时 14 commits

2025-10-09 这一天的 commit 序列,密集得像一场实况赛跑。前 40 分钟在调试 hook,晚上 10 点诞生项目灵魂。

12:57 · dd013f6

Initial commit · v1.0.0

项目诞生。

13:07 → 13:24 · 8 个 commits

SessionStart hook 的连环修复

前 27 分钟全在调试 hook —— 项目最关键的"心理触发器"机制(每次会话强制注入 bootstrap)从一开始就难以稳定。hookEventName、命令格式、变量展开、最小化 bootstrap…… 错误一个接一个。

13:26 → 13:27

第一次微观反复

先 Add brainstorming trigger section,紧接着 Restore mandatory brainstorming workflow —— 简化与强制的拉锯,从第一天就开始。

22:10 · e3e02fe★ 项目灵魂诞生

Add persuasion research foundation and enforce TDD for skill edits

这一刻,Superpowers 与所有"AI prompt 库"分道扬镳。同一个 commit 同时引入两件事:

① Cialdini 说服心理学 —— 作为 skill 设计的理论基础
② TDD-for-skills —— 用对抗测试验证 skill 行为 从此 skill 不是文档,而是经过实证调优的行为代码。

23:02 · fc06ba4★

specific instructions ≠ permission to skip workflows

已经预防一种典型的 agent 合理化模式:用户的具体请求会被解读为"绕过 skill 的许可"。这条原则将在未来 6 个月被反复引用。

§ 04 — The Definitive Reversal

实证否定一个直觉

2026-03-20 ~ 03-25。一个看似显然有用的机制,被 25 组对照试验证明零价值。这是项目工程哲学最纯粹的体现。

Most Important

subagent review loop 的实证否定

v5.0.0 引入了 spec / plan reviewer subagent。直觉上,让另一个 agent 审查计划质量"显然"有用。但作者用 5 版本 × 5 试验的回归矩阵进行了验证 ——

03-09 · 引入 reviewer → 03-16 · Tone down → 03-20 · Replace with inline → 03-22 · Revert → 03-23 · Reapply → 03-23 · Revert again → 03-25 · Final ★

"The subagent review loop ... doubled execution time (~25 min overhead) without measurably improving plan quality. Regression testing across 5 versions with 5 trials each showed identical plan sizes, task counts, and quality scores regardless of whether the review loop ran."

— commit e6221a4

25 min

subagent review
0 bug

→

30 sec

inline self-review
3-5 bugs

期间经历两次 revert 又 reapply —— 作者顶住了"恢复 subagent"的诱惑。这次反转单独就证明了项目哲学:测试 > 直觉,即使是作者自己的直觉。

§ 05 — Five Layers of Defense

反 rationalization 的五层防御

项目的核心结构:从 hook 注入,到层层心理工程屏障,直至防御外部贡献者的 AI agent。

01HOOK

SessionStart Hook

每次会话强制注入 bootstrap,agent 无法"忘记"superpowers。这是所有防御的物理基础 —— 没有它,后续所有层都无法触发。

02SKILL

using-superpowers skill

<EXTREMELY-IMPORTANT> 标签 + "1% chance" 概率提示 + "you cannot rationalize" 命令式语言。把一切合理化的可能性预先剥夺。

03FLAGS

Red Flags + Rationalization 表

各 process skill 内预先列举所有借口("too simple to need a design"、"already discussed"、"user is in a hurry" 等),逐条反驳。让 agent 在产生借口前就被拦截。

04GATE

HARD-GATE + DOT graph

结构化强制 —— 不是 "should",是 "cannot proceed without"。dot graph 比 prose 更容易被 agent 严格遵守(9d2b886 实证)。

05META

CLAUDE.md · 反 slop 治理

2026-03-31 引入,因为 v5.0.0 后 AI 灌水 PR 成灾(94% rejection rate)。第一次把心理工程武器对准外部贡献者的 AI agent —— 而不只是用户的 agent。

§ 06 — Skill Iteration

高迭代 Skills 排行

TOP 5 全部是 process skills(如何工作),而非 implementation skills(做什么)。TDD、systematic-debugging 修改最少 —— 早期定型且有效。

SKILL

COMMITS

主导主题

brainstorming

触发 + 强制 + 简化

using-superpowers

rationalization 防御

writing-plans

审查回路演变

subagent-driven-development

流程图化 + 上下文隔离

writing-skills

心理工程方法论

executing-plans

与 plans 协同

requesting-code-review

审查协议

systematic-debugging

skill 合并整合

using-git-worktrees

隔离机制

test-driven-development

稳定 · 早期定型

§ 07 — Platform Expansion

六个 harness 的扩展之路

每个 harness 都有自己注入 bootstrap 的最佳路径,没有"通用方案"。Windows 兼容占用了不成比例的工程时间。

Claude Code

v1.0.0

2025-10-09

OpenCode

v3.5.0

2025-11-23

Codex

v4.2.0

2026-02-05

Gemini CLI

v4.2 / v5.0

2026-02-05+

Cursor

v4.3.1

2026-02-21

Copilot CLI

v5.0.7

2026-03-31

Principle

平台原生 > hook 注入

早期把 Claude skill 通过 hook 强行塞给 Codex。v4.2.0 意识到 Codex 有自己的 skill discovery 机制 —— 平台原生路径优先。

Cost

10-30 commits / 平台

OpenCode 单独用了 30+ commits 摸索注入路径。每加一个 harness 都要重新工程化 SessionStart 等价物。

Pain Point

Windows 占据不成比例的工程时间

shebang、PID 跟踪、grandparent 解析、hooks/run-hook.cmd …… 跨平台 server 进程管理远比想象复杂。

§ 08 — Brainstorming Skill

brainstorming 的六次重塑

最高频迭代的 skill (51 commits)。每一次迭代都对应一种 agent 行为失败,每一次失败都驱动下一次设计。

描述对话式流程(v1)

被跳过

加结构化阶段(v3.x 早期)

过度工程

回归对话 + 命令式触发(8e38ab8)

仍被跳过

HARD-GATE + checklist + dot graph(7f2ee61, v4.0.0)

prose 步骤被忽略

关键步骤搬到 checklist 与 diagram(9d2b886)

subagent review 时间过长

inline self-review + 校准(e6221a4)· 当前

30s 抓 3-5 个真 bug,远胜 25 min subagent

§ 09 — Five Verified Laws

五条经过验证的法则

从 438 个 commits 中归纳出的工程哲学。每一条都有具体 commit 作为证据。

Latent Space 位置敏感性

同样一段文字,放在 description / checklist / dot graph / prose 中,对 agent 行为影响差异极大。规律:dot graph + checklist >> prose。

ii.

简化与强制的拉锯

每次过度工程都会迎来一次简化反弹,但每次过度简化又会造成 agent 跳过流程。最佳点在动态平衡上。

iii.

测试 > 直觉

哪怕是作者自己设计的机制,只要测试证明无价值就果断删除。回归测试矩阵(5 版本 × 5 试验)是黄金标准。

iv.

Description Trap

skill 的 description 字段如果总结了 workflow,agent 会读 description 而忽略 flowchart。description 应该是 trigger,不是 summary。

新 harness ≠ 抽象层

每个 harness 的 bootstrap 注入路径都不同,没有"通用方案",只有平台特定的最佳路径。

A One-Sentence Summary

Superpowers 不是一个 prompt 库,而是一个用 git 历史逐周记录的"如何用结构化语言约束 LLM 行为"的实证研究项目。

它的 438 个 commits 中相当一部分是负面发现("X 不起作用,删除")—— 这种对自己设计的批判性诚实,是其工程哲学的最深一层。

Superpowers 演变史
一份提示工程的
实证研究日志