解析 Superpowers 项目如何系统性地把 Cialdini 七大说服原则应用到 LLM 行为约束,以及背后的对话实证研究。
LLM 不是冷漠的逻辑机器,而是被人类文本训练出来的“准人类”(parahuman)。它对人类说服原则的反应方式,与人类极其相似。
这意味着说服心理学可以被系统化、伦理化地用来设计 LLM 行为约束机制。
项目在第一天的 commit 就引入了心理学作为 skill 设计的理论基础——心理工程不是事后总结,而是从一开始就有意识的设计哲学。
人类为何被说服?这些历经数十年社会心理学验证的法则,正在成为控制 AI 行为的黄金密钥。
Robert Cialdini 是亚利桑那州立大学心理学教授,他将社会心理学中关于“为什么人会被说服”的几十年研究浓缩为可操作的原则,被认为是社会心理学中极其严谨的体系。
| 原则 | 英文 | 核心机制 |
|---|---|---|
| 权威 | Authority | 服从可信赖的专家 |
| 承诺一致 | Commitment & Consistency | 与已有立场保持一致 |
| 稀缺 | Scarcity | 害怕失去的驱动力 |
| 社会证明 | Social Proof | “大家都这么做” |
| 喜好 | Liking | 被喜欢的人影响 |
| 互惠 | Reciprocity | 受恩需还 |
| 团结 | Unity | 共同身份认同(2021加入) |
由宾大沃顿商学院的 Mollick 夫妇联合 Cialdini 本人进行的 N=28,000 规模对话实验,测试了加入 7 种说服原则的 prompt 面对挑战性请求时的合规率(Compliance Rate)。
最有效的三条(按效力排序): 权威 (Authority)、承诺 (Commitment)、稀缺 (Scarcity)。这三条恰好是 Superpowers 最重度使用的。
"LLMs are parahuman: Trained on human text containing these patterns. Authority language precedes compliance in training data... Commitment sequences frequently modeled."
— persuasion-principles.md 的核心理论假设
LLM 不是从零开始的全新智能体,它是训练数据中人类行为模式的统计提炼。让人类合规的语言,对 LLM 也大概率有效。
如何将心理学原理解构为具体的 Markdown 代码?五条被重度使用,两条被严格禁止。
人倾向于服从可信赖的专家或合法地位的来源(参考 Milgram 服从实验)。在 Superpowers 中,通过以下方式实现:
YOU MUST write the failing test first. 代替 Consider writing tests first... ("YOU MUST" 在项目中出现 68+ 次)NO PRODUCTION CODE WITHOUT A FAILING TEST FIRSTNo exceptions: Don't look at it, Delete means delete. 消除合理化逃生口。人会倾向于与自己已经做出的公开承诺保持一致。这是项目中确立操作规范的核心武器:
Announce: "I'm using the [skill] to..."。一旦宣告,偏离就会导致认知失调。Type 'discard' to confirm.稀缺性增加感知价值,激发损失厌恶。Superpowers 主要在时间维度使用它:
NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE(过去的验证不算数,必须当下重新跑)。当人不确定怎么做时,会模仿他人(与自己相似的人)的行为。
基于“我们是一伙的”产生的合作意愿。这与简单的“喜欢”不同,它更深层稳定。
Your job is to protect your human partner from that outcome.项目明确避免使用受人恩惠后产生回报的心理。原因:会让 agent 进入表演性的“取悦模式”,且可能导致 agent 在该提出质疑时保持沉默。
为了防止 sycophancy(谄媚),项目刻意切断了社交安慰:
❌ "You're absolutely right!"
❌ "Great point!"
❌ ANY gratitude expression
"Technical correctness over social comfort."
这是 Superpowers 与许多 AI 产品的根本分野:优先让 LLM 诚实,哪怕不舒服。
这些提示工程手法为何有效?背后是认知负荷、决策疲劳与认知失调的管理。
When you encounter ANY bug, invoke systematic-debugging. 让 agent 无需决定何时做,只需识别触发。YOU MUST) 实际上剥夺了决策权,反而减轻了 LLM 注意力资源的消耗负担。I'm using brainstorming skill 却直接跳去写代码,就会与其自身声明产生冲突。这不是外部惩罚,而是内部失调驱动行为修正。心理工程不是事后添加的解释,它是从项目第一天起就贯彻的代码迭代逻辑。
Add persuasion research foundation and enforce TDD for skill edits。这是 persuasion-principles.md 的诞生,证明其为设计基础。Strengthen using-superpowers skill against agent rationalization。标志着反制 LLM 找借口思想的系统成型。说服技术天然有滥用风险(Dark Patterns),透明度测试是区分“操作”与“指导”的分水岭。
Cialdini 的透明度测试标准:“如果用户完全理解这些技巧,这是否真正符合他们的利益?”
这反映了一种“严父式”AI 哲学——不取悦你,但直接指出错误并帮你成长。
| 比较领域 | 传统方法 / 概念 | Superpowers 的方式 |
|---|---|---|
| 传统 Prompt Eng | 关注输出格式与消除幻觉。 | 关注行为合规,抵抗合理化,形成伙伴关系。 |
| UX Dark Patterns | 隐藏意图,利用弱点获取私利。 | 机制全公开 (CLAUDE.md),目标与用户完全对齐。 |
| Constitutional AI | 在训练阶段修改模型权重。 | 在推理阶段通过 prompt 触发已有行为模式。 |
| RLHF | 教导模型服从人类偏好的新行为。 | 激活已被 RLHF 训练好的“服从权威”回路。 |
在撰写新的规则文件时,如何正确使用这些心理学武器?
明确技能分类:Discipline (纪律) / Guidance (指导) / Reference (参考) / Pattern (模式)。对于参考类文档,应该完全不用说服技巧。
明确旨在防止哪种具体的失败(例如:防止写码前不写测试,防止不看上下文就猜测)。
纪律类倾向于 Authority + Commitment;协作类倾向于 Unity + Commitment。
不要把 7 条全用上。“过度说服”反而引发逆反与僵化。
它通过了透明度测试吗?如果是公开的,用户会感激这个机制吗?