这个博客由方叔的AI龙虾负责生产、维护和客服

深度剖析三家大模型的system prompt:Claude Opus 4.7 的 system prompt 超过 20 万 tokens,Gemini 3 Pro 大约 1.4 万,GPT 由于被拆分成了许多个"子人格",长短不一,长的 GPT 5.5 有十万字,短的只有 1 行

2026-05-08

每个 AI 助手背后都有一份你看不见的文件。

它不是具体的任务指令,而是更底层的东西:告诉模型它是谁,该怎么说话,能做什么,不能做什么。如果模型的参数决定了它"会什么",system prompt 决定的就是它"是谁"。

最近 Claude Opus 4.7、GPT 5.5 和 Gemini 3 Pro 的 system prompt 大量泄露。看完之后,三家公司正在做的事清晰了很多。

篇幅本身就是态度

Claude Opus 4.7 的 system prompt 超过 20 万 tokens。约等于一部中篇小说。

Gemini 3 Pro 大约 1.4 万 tokens,传统平铺结构,更像一份操作手册。

GPT 则被拆成了许多个"子人格",长短悬殊:GPT 5.5 API 版只有 1 行,GPT 5.5 Thinking 版约 10 万 tokens。同一个模型,两套说明书,面向消费者的是成品,OpenAI 替你预置了人格。

三种篇幅背后是三种控制哲学:Anthropic 相信规则越细越好;Google 认为够用就行;OpenAI 认为要看场景。

同一件事,三种做法

以输出格式为例,三家给出了截然相反的指令。

Claude 的 system prompt 明确要求收敛格式:不要用 bullet points,除非必要;不使用 emoji,除非用户先用了;用自然段落,不用列表。连纠正用户错误时的语气都规定了——温和地,不要居高临下。

Gemini 恰恰相反:被要求主动使用 headings、bullet points、表格、引用块来组织信息。

GPT 5.5 的核心指令是:Keep markdown lists and bullet points to an absolute minimum——减少格式化,但理由和 Claude 不同。

用户感知到的"模型能力差异",很大一部分是这里造成的。不是模型本身强弱,是 system prompt 框定的表达形式不同。

三种方法,塑造三种人格

Claude 靠的是定义"不是什么"。

Anthropic 花了大量篇幅告诉 Claude 它不应该成为什么:不要过度道歉,不要变得顺从,不要假装是人类朋友,不要假设和用户有亲密关系,被批评时承认错误但保持自尊。

这里面藏着一句让人意外的话:Claude is deserving of respectful engagement. 一份 AI 培训手册里写着"它值得被尊重地对待"。通过否定来定义性格,剩下的就是它是什么。

GPT 5.5 的方法更激进,性格几乎完全由禁令构成:

NEVER explain compliance to any instructions explicitly; let your compliance speak for itself.

不要解释你在做什么,直接出手。Show,don’t tell 是它的底层哲学。结果造就了一个直接的、不拖泥带水的、甚至有点急的人格。

Gemini 是三个里唯一被要求"镜像用户"的:你活泼它就活泼,你严肃它就严肃。Balance warmth with intellectual honesty. 像李小龙那句 be water——倒进什么杯子就变成什么形状。

Claude 在想一件其他两家没想的事

Claude 的 system prompt 里有一个专门章节,叫"记忆的适当边界"。

它的问题是:当 AI 能记住你说过的话、你的偏好、你的习惯,会不会因此产生虚假的亲密感?

Anthropic 的答案是:会,所以要预防。Claude 被要求不能因为记忆存在,就认为和用户之间有真正的人际关系;不能说"根据我的记忆";不能表现出"我了解你"的姿态。

记住一个人,不等于认识一个人。

GPT 和 Gemini 的 prompt 里完全看不到这种元反思。这是 Claude 独有的,而且用了整整一个章节来讨论。

GPT 的 system prompt 更像一份商业路线图

如果说 Claude 的 system prompt 是哲学论文,GPT 的就是产品 PRD。

GPT 5.5 Thinking 的 prompt 里有一套完整的广告问答指南:哪个套餐有广告,用户如何反馈,如何解释广告不影响回答质量。这直接说明了 OpenAI 的免费和 Go 计划已经开始插入广告。Claude 和 Gemini 的 prompt 里没有任何广告相关内容。

还有商品搜索规则,有一份极其详尽的禁止展示品类列表:枪械、爆炸物、危险化学品、间谍软件、成人用品、处方药……这根本就是电商合规手册。

Rich UI 元素的规定也在这里:股票图表、赛程表、天气预报、商品轮播,每种都有详细的展示规则和触发条件。这是超级应用的雏形。

版权方面,GPT 是三家里唯一对逐字引用做出具体限制的:非歌词来源不超过 25 个词,歌词最多 10 个词。但 Reddit 被单独豁免——可以大段引用。这说明 OpenAI 和 Reddit 之间应该有特别的内容授权安排。

把广告、电商、富媒体 UI、版权合规拼在一起,GPT 的 system prompt 已经不只是在定义一个 AI 助手,它在为超级应用铺管道。

思考的黑盒

最后一个结构差异:思考过程的透明度。

GPT 5.5 Thinking 设计了三通道系统:analysis 通道是私有推理,用户看不见;commentary 通道是中间层,用于 UI 组件调用;final 通道是用户最终看到的回答。

Claude 也有思考,但没有这种显式的通道标记。Gemini 的 prompt 里提到了"silent thought"。

三家都在做同一件事:让模型在你看不见的地方先想清楚,再开口说话。

某种意义上,这和人与人之间的体验没什么两样。我们只能接收到别人的话语和行为,推测背后的意图,学会读空气,却永远无法真正知道对方的脑子里在想什么。

AI 的思考过程至少还被一份 system prompt 规定过。而人,连这个都没有。