学习笔记-AIGC全栈认知与落地（6）

排骨非人发布于 2026-6-18 11:03 阅读：8 技术学习

第6章 · 提示工程——产品架构师的第一个AI硬技能

开场：同一个需求，两种截然不同的结果

那是一个普通的下午。我们团队里两位架构师——我姑且叫他们A和B——需要用AI帮助分析一份竞品文档，输出一份有结构的对比报告。他们拿到了同一个大模型、同样的文档材料。

A发出去的是这个：

"帮我分析这份竞品文档，写一个分析报告。"

B发出去的是这个：

"你是一位有10年经验的产品架构师，擅长SaaS行业的竞品分析。请基于以下竞品文档，从产品定位、核心功能、技术架构、差异化优势四个维度进行对比分析。每个维度用100-200字说明，最后给出一个3条以内的战略建议。输出格式为Markdown，使用##二级标题划分维度。"

A得到了一篇两千字的流水账，里面什么都有但又什么都不深入，格式乱到没法直接用。

B得到了一份可以直接放进PPT的结构化分析，不仅格式对，连用词都接近他平时的报告风格。

两个人用的是同一个模型。差距完全来自Prompt。

我看着这两份输出，想起了自己刚开始用大模型的时候——那段"随便问"的阶段，总觉得AI不够好用，殊不知问题全在自己这边。Prompt工程这件事，听起来很虚，实际上是一项可以系统学习、可以模板化、可以工程化的硬技能。

这一章，我们就把它拆开来讲。

6.1 Prompt的本质：一份给AI的精确需求说明书

从PRD到Prompt：同一种思维

我学会Prompt工程的那个转折点，不是看了什么教程，而是某天突然意识到：我在写Prompt的时候，用的是和写产品需求文档一模一样的思维框架。

想想你写一份PRD的时候在做什么——

你要告诉研发团队：角色（谁来做这件事，是前端还是后端？）
你要交代：背景（这个需求的上下文是什么，为什么需要？）
你要描述：任务（具体要实现什么功能？）
你要约束：边界（不需要做什么、不能做什么？）
你要规定：输出格式（返回什么数据格式、页面长什么样？）

Prompt的结构和这个一模一样：角色设定 + 背景交代 + 任务描述 + 约束条件 + 输出格式。

区别只是：对象从研发团队变成了大模型，但信息完整度的要求是一样的——甚至更严格，因为模型不会像研发同学那样主动追问你"这里是什么意思？"

【图6-1：Prompt四要素结构图】

为什么"随便问"效果差

当你只说"帮我写个分析报告"时，模型实际上面临巨大的不确定性：

写什么角度的？市场分析？技术分析？用户分析？
给谁看的？高管汇报？还是团队内部参考？
要多详细？一页纸还是十页纸？
什么格式？纯文本、Markdown、表格？
语气是什么风格？正式、轻松、咨询报告风格？

模型会做一个"最合理的猜测"——但这个猜测和你的期望很可能相差甚远。

这就像你跟新来的实习生说"帮我做个PPT"，然后等他交稿。如果你之前没说清楚，你大概率会拿到一份让你改到想哭的初稿。

"随便问"的代价，不是AI不聪明，而是你没说清楚。 这是一个认知转变，很多人花了很长时间才接受这件事。

Prompt的四个核心要素

一个完整的Prompt通常包含四个部分：

1. 角色设定（Role）：告诉模型"你是谁"

你是一位有10年经验的云原生架构师，擅长微服务和Kubernetes...

这不是玄学。角色设定会激活模型训练数据里对应职业背景下的知识模式，让输出更贴近那个角色的思维方式和表达风格。

2. 背景交代（Context）：告诉模型"这件事的来龙去脉"

我们公司正在评估是否将现有的单体应用拆分为微服务架构。
当前系统有300万日活用户，技术栈是Java Spring Boot + MySQL...

背景越充分，模型的回答越贴合你的实际情况，而不是给你一个通用答案。

3. 任务描述（Task）：告诉模型"具体要干嘛"

请从技术风险、团队能力要求、迁移成本、预期收益四个维度，
分析这次架构升级的可行性，给出你的评估和建议。

任务要具体、可验证——"写一个分析"太模糊，"从X/Y/Z三个维度分析，每个维度200字"就具体多了。

4. 输出格式（Format）：告诉模型"输出什么样子"

输出格式要求：
- 使用Markdown格式
- 每个维度用##二级标题
- 最后用一个表格总结优劣势
- 结论部分不超过150字

格式约束越清晰，输出越可以直接用——这对需要下游处理（放进报告、接入系统）的场景尤其重要。

一个完整的Before/After对比

【图6-2：Before/After Prompt效果对比】

Before（差）：

帮我分析一下这个技术方案的风险。

After（好）：

角色：你是一位有经验的技术风险评估专家，熟悉云原生系统设计。

背景：我们计划在下季度上线一个新的AI推荐系统，该系统将接入现有的
电商平台，日均调用量预计50万次，要求P99延迟<500ms。

任务：请从以下三个维度评估技术风险：
1. 系统稳定性风险（服务依赖、单点故障）
2. 性能风险（延迟目标可达性、容量规划）
3. 数据安全风险（用户行为数据处理合规）

输出格式：
- 每个风险维度用###三级标题
- 每个维度：风险描述（2-3句）+ 风险等级（高/中/低）+ 缓解建议（1-2条）
- 最后给一个整体风险评估（不超过100字）

这两个Prompt的信息量差了3-4倍，输出质量的差距会更大。

Prompt质量自检：写完后问自己三个问题

每次写完一个Prompt，在发出去之前，我会快速问自己三个问题：

问题一：如果我把这个Prompt给一个聪明的实习生，他看完之后知道要做什么吗？

如果答案是"不确定"——那模型也不会知道。Prompt的清晰度标准是：一个完全不了解背景的人也能照着做。

问题二：我的"期望输出"在脑子里是清晰的吗？

很多人在写Prompt的时候自己都没想清楚要什么。如果你不能在脑子里描述"完美输出"是什么样的，那Prompt里也不可能把它说清楚。先想清楚自己要什么，再写Prompt。

问题三：Prompt里有没有可以更具体的地方？

把所有模糊的形容词换成可量化的标准：

"简洁" → "不超过150字"
"专业风格" → "采用McKinsey报告风格，多用数据和逻辑链"
"全面覆盖" → "覆盖以下三个维度：X、Y、Z"

这三个问题只需要30秒，但能把Prompt的有效率提高50%以上。

6.2 五种基础Prompt模式

掌握了Prompt的基本结构，下一步是学会几种可以立即上手的模式。这五种模式覆盖了80%的日常使用场景，每种都有固定的套路和适用场景。

【图6-2（补充）：五种基础Prompt模式对比卡片】

模式一：角色设定（Role Prompting）——让模型扮演专家

本质：激活模型训练数据中特定职业领域的知识和表达方式。

类比：你聘请了一位顾问，在他开口之前，你先告诉他："你是一位专注于SaaS增长的前大厂产品总监，面对的是B端企业客户。"他给你的建议会因此和"一位刚毕业的产品助理"给的建议截然不同——不是因为模型变了，而是激活的知识域不同了。

适用场景：

需要专业视角的分析（技术评估、商业分析、法律合规）
需要特定风格的写作（技术文档、学术摘要、营销文案）
需要跨领域思考（从用户视角评价技术方案）

模板：

你是一位[职业+经验年限]，擅长[核心专长]，
曾经处理过[相关背景]类型的问题。
现在请你[具体任务]...

产品架构师使用技巧：角色设定不是越复杂越好。三个要素就够——职业定位、核心专长、相关背景。超过这三个通常是信息过载。

模式二：Few-shot示例——给例子比讲道理更有效

本质：给模型几个"这是好的，这是不好的"的例子，让它学会你的判断标准。

类比：带新员工不是靠讲道理，是靠看案例。你说"写邮件要简洁专业"，他理解可能不同；你给他看三封好邮件和三封差邮件，他立刻就知道了。

适用场景：

格式固定、需要批量处理的任务（信息提取、分类、格式转换）
有特定风格要求的输出（写作风格、措辞习惯）
需要模型"猜懂你心思"的任务（主观评估、定制化输出）

模板：

我需要你完成以下格式的信息提取任务。
以下是几个示例：

输入：[示例输入1]
输出：[示例输出1]

输入：[示例输入2]  
输出：[示例输出2]

现在请对以下内容做同样的处理：
输入：[实际输入]

产品架构师使用技巧：示例的质量比数量更重要。3个高质量示例远胜过10个随手写的示例。示例要覆盖典型情况和边界情况。

一个踩坑经验：我曾经在一个文档分类任务里用了5个示例，全是"这是好的"，没有给任何"这是不好的"（负例）。结果模型把所有输入都分成了我示例里的类别，因为它不知道什么情况应该输出"其他/不适用"。Few-shot要同时给正例和反例。

模式三：Chain-of-Thought（CoT）——让模型一步步想

本质：要求模型在给出最终答案之前，先把推理过程写出来。

类比：让实习生不要直接给结论，先把分析过程写出来。一方面他的答案会更准确（写的过程就是在验证逻辑），另一方面你也能看出他是真的想清楚了还是在猜。

为什么有效：大模型的逻辑推理是在生成过程中一步步完成的——如果你直接要结论，模型的"推理空间"就是那短短几个输出token；如果你让它先写推理过程，模型实际上在生成答案之前做了更多的"思考"。

适用场景：

数学计算、逻辑推导类任务
需要多步分析的复杂问题（风险评估、架构决策）
需要追溯推理过程的场景（便于审查和修正）

触发方式：

# 简单触发：
请一步步分析，最后给出结论。

# 更明确的触发：
请先列出你的分析思路，然后逐步推导，最后给出你的建议。

# 最强的触发（适合复杂问题）：
请按以下结构思考：
第一步：识别问题的核心约束
第二步：列出可能的方案
第三步：对每个方案评估优劣
第四步：给出你的推荐和理由

产品架构师注意点：CoT会让输出变长。如果你只需要结论（比如分类任务），不需要用CoT——它会增加token消耗和延迟。

模式四：结构化输出约束——让输出可以直接用

本质：约束模型输出的格式，让它可以被下游系统直接处理。

类比：与其让员工写一篇自由格式的报告，不如给他一个标准表格填写——既节省审阅时间，又方便汇总。

适用场景：

AI输出需要接入系统（JSON格式解析、表格导入）
需要多维度统一对比（产品评测、方案比较）
批量处理时需要一致格式

常见格式约束方式：

# JSON输出
请以JSON格式返回结果，包含以下字段：
{
  "风险等级": "高/中/低",
  "主要风险点": ["风险1", "风险2"],
  "缓解建议": "...",
  "置信度": 0.0-1.0
}

# Markdown表格
请以Markdown表格格式输出，列标题为：模型名称 | 核心优势 | 适用场景 | 推荐度

# 固定段落结构
每个分析项目请按以下结构输出：
**问题描述**：...（1-2句）
**影响范围**：...（具体范围）
**建议动作**：...（1-3条可执行建议）

踩坑提醒：JSON格式约束有时会让模型"装模作样"——它会输出格式正确的JSON，但里面的内容是编的。如果你的场景对准确性有高要求，JSON输出后必须有验证步骤。

模式五：System Prompt——产品级AI的基础设施

本质：在所有用户输入之前，设置一个固定的"角色定义和行为规范"，在整个对话中持续生效。

类比：员工入职培训。你在他正式开始工作前，先告诉他："我们公司的规定是……我们的服务理念是……遇到这类问题你应该……"这些不需要每次交代，一次说清楚，后面他自然会按这套原则行事。

System Prompt vs 普通Prompt的区别：

普通Prompt：每次对话都要写，影响本次对话
System Prompt：写一次，对所有对话生效；用户的输入在System Prompt之后进入

适用场景：

产品中的AI角色固定化（"你是XX产品的智能客服，专注于解答……"）
行为规范设定（"你的回答必须基于提供的文档，不得编造"）
输出风格固定化（"所有回答用简洁的中文，不超过200字"）

一个好的System Prompt的结构：

## 角色定义
你是[产品名称]的AI助手，专注于[核心职责]。

## 能力范围
你可以：[能做的事]
你不能：[不能做的事，如"不提供具体法律建议"]

## 行为规范
- 回答必须基于提供的材料，不得编造数据
- 如果不确定，明确告知用户你不确定
- 保持专业简洁的语气

## 输出格式
[具体的格式要求]

产品架构师关注点：System Prompt是成本大户。如果你的System Prompt有2000 tokens，每次对话的"起步成本"就是2000 tokens——无论用户问多短。精简System Prompt是降低AI产品成本最直接的手段之一（第4章讲到降本手段时也提到了这点）。

6.3 进阶模式：从单次调用到工程化Prompt

掌握了五种基础模式，你在日常工作中用AI的效率就会大幅提升。但如果你在做的是一个AI产品——不是自己用，而是给成千上万用户用——你需要把Prompt从"个人技能"升级为"工程资产"。

【图6-4：Prompt工程化流程图】

Prompt模板化：让Prompt成为可复用资产

当你有一个好Prompt，下一步是把它变成一个模板——把固定的部分固定下来，把变化的部分用变量占位：

# 竞品分析模板 v1.2

你是一位有{years_of_experience}年经验的{industry}行业产品分析师。

背景：{company_name}正在评估进入{target_market}市场。

请基于以下材料，从以下{analysis_dimensions}个维度进行分析：
{dimension_list}

输出格式：{output_format}

材料：
{source_material}

这个模板可以用于不同的竞品、不同的行业、不同的分析维度，而不需要每次从头写。这是Prompt从"一次性工具"到"可重复资产"的关键一步。

产品架构师的判断：什么时候把Prompt模板化？当你发现同一类任务需要反复使用时。一个经验是：如果你已经写了3次类似的Prompt，第4次就应该把它模板化。

Multi-turn策略：对话历史的管理艺术

在多轮对话中，你需要主动管理上下文，而不是被动地让对话越来越长。

策略一：开场定调
对话开始时用一条"定调信息"设定整个对话的规则和目标，而不是每次都重复：

接下来我们要讨论一个技术架构方案。
在整个讨论过程中：
1. 你扮演一位经验丰富的系统架构师
2. 每次回答后，列出你还需要了解的关键信息
3. 最终目标是输出一份可执行的架构决策文档

策略二：对话摘要注入
当对话轮数超过10轮，对话历史开始吃token。主动要求模型总结前面的关键信息，然后"清空"历史，带着总结继续：

请把我们目前讨论的核心决策和待解决问题总结成一段话（200字以内），
我将用这个总结继续我们的对话。

策略三：明确重置
当话题切换时，告诉模型"上面的讨论已经结束，现在我们来讨论一个新问题"——这样模型就不会被之前的上下文干扰。

输出约束与验证：从Prompt到产品的最后一公里

在产品场景中，模型输出需要接入系统，格式验证必不可少：

# 伪代码示意
response = model.call(prompt)

# 格式验证
try:
    data = json.parse(response)
    assert "risk_level" in data
    assert "suggestions" in data
except:
    # 格式错误，触发retry或降级
    response = model.call(prompt + "\n请严格按JSON格式输出，不要有任何额外文字")

产品架构师的设计原则：不要假设模型总是输出正确格式。为格式异常设计retry逻辑和降级方案——这和你为API超时设计重试逻辑是一样的思维。

Prompt AB测试：哪版Prompt更好

当你有两个候选Prompt时，用数据决定而不是靠感觉：

测试集：准备50-100条真实业务输入
评估维度：准确率、格式符合率、输出长度（成本）
评测方式：有条件做人工盲评，没条件用另一个LLM做自动评测
决策规则：质量提升>5%且成本不超过10% → 切新版；质量提升<5%但成本降低>20% → 也值得切

Prompt版本管理：Prompt也是代码，要有版本号、要有测试、要有回滚机制。一个简单的做法是在代码仓库里为每个Prompt创建一个Markdown文件，用git管理版本历史。

一个真实的惨痛教训：我们有一次对一个核心功能的System Prompt做了优化，没有走版本管理流程，直接覆盖部署了。上线后两天发现某类输出质量下降，排查了很久才发现是新Prompt在一个特定场景下有问题。但因为没有版本历史，我们连"改了什么"都要靠记忆来重建。最后用了大半天时间才恢复。

经验之谈：把Prompt版本管理纳入你的上线流程——和代码变更一样要有审批、要有测试、要有备份。Prompt变更引起的问题和代码bug一样严重，但大多数团队的保护机制却远不如代码规范。

实时Prompt质量监控

Prompt部署之后并不是万事大吉。随着用户输入的变化、模型版本的更新（很多云端API会静默更新模型版本），效果可能在你不知情的情况下漂移。

监控的核心指标：

格式合规率：输出是否符合你约束的格式（JSON是否可解析、指定字段是否存在）
拒答率：模型拒绝回答的比例（过高说明约束太严或有大量不适合的输入）
输出长度分布：P50/P95输出token数（异常变长可能是Prompt漂移）
用户反馈分：点赞/点踩的比率趋势

告警设置建议：

格式合规率下降超过5%：触发告警，检查是否有模型版本更新
拒答率超过10%：触发告警，检查输入分布和安全过滤策略
平均输出长度增加超过30%：可能有Prompt行为变化，人工审查

这些监控不复杂，但大多数团队在Prompt上线后就"放手不管"了。定期的Prompt健康检查是保持AI系统质量的重要工作，产品架构师要把它列进运营日程里。

6.4 常见反模式：为什么你的Prompt不工作

了解Prompt为什么会失败，比只学"好Prompt是什么样的"更有价值——因为失败有规律，掌握了规律就有了诊断能力。

【图6-5：常见反模式诊断树】

从"Prompt效果差"开始，分支到各类问题，每个末端节点标注修复方法。

反模式一：任务描述模糊

症状：输出跑题、太宽泛、不够具体。

根因：你用了"写一个分析""做一个总结"这类动词，但没有告诉模型"分析什么角度""总结到什么深度"。

修法：把任务从动词升级到"动词+维度+深度+边界"：

❌ "分析这个产品的问题"
✅ "从用户体验、核心功能、商业模式三个维度分析这个产品存在的问题，每个维度找出1-2个最关键的问题，给出具体改进建议"

反模式二：背景信息不足

症状：输出太通用，像在讲"一般原则"而不是"你的情况"。

根因：模型不了解你的具体情境，只能给出最大公约数的答案。

修法：补充关键背景——用户规模、技术栈、团队规模、时间约束、已知限制。

# 加了背景之后：
背景：我们是一个50人规模的SaaS公司，主要做B端HR软件，
技术团队15人，主力技术栈是React + Node.js，
明年Q2需要上线一个AI简历筛选功能，预算150万。

这些背景信息会让模型的回答从"理论上AI可以……"变成"对于你们这个规模和技术栈，最合适的方案是……"

反模式三：示例选得不好（Wrong Shot）

症状：用了Few-shot示例，但效果还是不好。

根因：

示例太简单，不能代表真实输入的复杂性
只给了正例，没有反例
示例和真实输入的风格差距太大

修法：

从真实业务数据中选示例，不要手写理想化的示例
同时给正例和反例（"这是应该的输出" + "这是不应该的输出，因为……"）
示例数量3-5个够了，不要超过10个

反模式四：System Prompt指令冲突

症状：模型的行为前后不一致，有时遵守规则有时不遵守。

根因：System Prompt里有互相矛盾的指令，比如"你应该简洁回答（不超过100字）"同时又"你应该详细解释每个细节"。

修法：

排查System Prompt里所有的约束性指令（"不超过""必须""总是""永远不要"这类词）
用一致性检查：把所有约束列出来，看有没有逻辑冲突
用优先级来解决冲突：明确告诉模型"如果这两条指令冲突，以第一条为准"

反模式五：期望值超出模型能力

症状：不管怎么调Prompt，模型就是输出不了你想要的东西。

根因：有些任务不是Prompt优化能解决的——它超出了模型的能力上限。比如：

要模型做实时数据查询（它没有）
要模型做精确的数值计算（它做不可靠）
要模型保持跨会话的记忆（它做不到）

诊断方法：

这个任务需要模型"知道"一个它训练数据截止后的事实吗？→ 需要RAG/工具调用
这个任务需要精确计算吗？→ 需要代码执行器
这个任务需要"记住"上次会话的内容吗？→ 需要外部记忆系统

架构师的判断原则：Prompt优化不是万能药。当你优化了5次以上仍然效果不好，先问问自己：这是Prompt问题，还是能力边界问题？如果是后者，答案不是更好的Prompt，而是更合适的技术方案。

反模式六：过度依赖Prompt而忽视数据质量

这是一个更隐蔽的反模式，也是我见过最多团队掉进去的坑。

症状：花了大量时间调Prompt，效果提升始终有限，迭代陷入瓶颈。

根因：数据质量问题被误解为Prompt问题。比如在RAG场景下：

知识库里的文档本身是错的或过期的——无论Prompt多好，给错的材料生成的仍然是错答案
文档分块策略不对，关键信息被切断——Prompt无法补救检索层的问题
测试集本身有歧义——评测分数低不是因为模型不好，而是评测标准不清

修法：遇到效果瓶颈时，先排查数据链路：

抽查10条效果差的case，看错误来自哪里：Prompt层、检索层，还是数据本身？
错误来自数据本身 → 清洗数据、修正知识库
错误来自检索层 → 优化分块和检索策略（第7章展开）
错误确认在Prompt层 → 才回到调Prompt

经验公式：效果 = 数据质量 × Prompt质量 × 模型能力。其中任何一项趋近于0，整体效果就趋近于0。大多数人只盯着Prompt，忘了另外两个乘数。

6.5 产品架构师的Prompt工具箱

理论够了，现在来些可以直接复用的模板。这些模板我在实际工作中反复用过，每一个都经过了多轮打磨。

【图6-6：产品架构师Prompt工具箱卡片集】

工具1：方案评审——让AI找漏洞

场景：你有一份技术/产品方案，想在正式评审前找出潜在问题。

角色：你是一位经验丰富的技术架构师，以挑剔著称，
擅长发现方案中的边界情况和潜在风险。

任务：请评审以下方案，你的目标是找到漏洞，而不是夸方案写得好。
重点检查以下几类问题：
1. 技术假设是否成立（有没有依赖未经验证的技术能力）
2. 边界情况处理（极端情况、错误情况有没有考虑）
3. 性能和扩展性（如果流量增加10倍会发生什么）
4. 安全和合规风险（数据安全、访问控制有没有考虑）
5. 实施难点（哪个环节最难实现、风险最高）

输出格式：
每个问题用###标题，包含：问题描述、风险等级（高/中/低）、建议

方案内容：
{your_design_doc}

工具2：竞品调研——结构化对比

场景：快速对比多个竞品/方案，输出可以直接放进汇报文档的对比表。

角色：你是一位SaaS产品分析师，擅长竞品分析和市场调研。

任务：对以下{product_count}个产品/方案进行对比分析。
对比维度：{dimensions}
每个维度的评估标准：{evaluation_criteria}

请输出：
1. Markdown表格格式的对比矩阵（行=产品，列=维度）
2. 每个维度的简短说明（2-3句话）
3. 综合建议：我的场景是{your_context}，推荐选择哪个，理由是什么

产品信息：
{product_info}

工具3：架构文档生成——从设计稿到文档

场景：你在头脑里已经有了架构设计，需要输出一份标准格式的架构文档。

角色：你是一位技术文档专家，擅长将工程师的思路整理成清晰的技术文档。

我将描述一个系统架构设计，请基于我的描述，
输出一份标准技术架构文档，包含以下章节：
1. 设计目标和约束条件
2. 整体架构图说明（文字描述，用ASCII图或列表形式）
3. 核心模块说明（每个模块的职责、输入输出、关键技术选型）
4. 数据流描述（关键业务流程的数据流转）
5. 关键设计决策和背后的理由
6. 已知局限性和待解决问题

语气：技术评审用，清晰专业

我的设计描述：
{your_design_description}

工具4：会议纪要处理——提取决策和行动项

场景：一大段会议记录，需要快速提取出有价值的信息。

请处理以下会议记录，提取关键信息。

输出格式（严格按以下结构）：

**会议主题**：（1句话）

**核心决策**（已拍板的事）：
- [负责人] 事项：... 截止时间：...

**待跟进事项**（需要进一步讨论或确认的）：
- [负责人] 事项：... 截止时间：...

**关键信息点**（讨论中出现的重要判断/数据/背景）：
- ...

**下次会议建议议题**（如有）：
- ...

会议记录：
{meeting_transcript}

工具5：技术选型分析

场景：需要在几个技术方案中做选择，想让AI帮你系统梳理。

我需要在以下几个方案中做技术选型：
方案列表：{options}

我的场景约束：
- 团队规模：{team_size}
- 技术栈：{tech_stack}
- 时间约束：{timeline}
- 预算约束：{budget}
- 关键需求：{key_requirements}

请从以下维度进行分析：
1. 技术成熟度和社区活跃度
2. 与现有技术栈的契合度
3. 学习曲线和上手难度
4. 维护成本（长期）
5. 场景适配度（针对我的关键需求）

输出：
- 每个方案的评分矩阵（维度×方案，1-5分）
- 我的场景下的推荐方案及详细理由
- 使用该方案最需要注意的1-2个风险点

如何在实际工作中养成用模板的习惯

有了这些模板，下一个问题是：怎么让自己真的用起来，而不是收藏了就再也不开？

方法一：工作流绑定

把最常用的Prompt模板嵌入你的工作工具。例如：

在你的笔记软件里（Notion/飞书文档/Obsidian）创建一个"AI Prompt快捷键"页面
在浏览器收藏夹里建一个专门的Prompt文件夹
如果你的团队用CLI工具，写一个简单的shell函数 prompt-review() 直接输出评审模板

方法二：即用即改

不要追求"一个完美的Prompt永远适用"。每次使用后，花60秒记录：哪里需要改、哪里特别好用。下次用时从上次的改良版本开始。这个"持续小迭代"的习惯比"一次写出完美模板"的完美主义更有效。

方法三：每次用完后评估ROI

用一个Prompt完成任务后，快速估算：我花了多少时间写Prompt + 修改输出？如果没有AI我要花多久？这个比值就是这次使用的ROI。当你开始追踪这个数字，你会发现某些类任务AI帮助巨大（文档处理、格式转换、草稿生成），某些类任务AI反而拖慢了你（需要大量背景知识的判断性任务）。这个感知会帮你更精准地选择何时用AI、何时自己做。

给团队建立Prompt文化的三步路

最后讲一个组织视角的话题——如何让Prompt工程不只是你一个人的技能，而是成为团队的集体能力。

第一步：自己先做标杆。在你的工作输出里展示Prompt工程的效果——开会带着用Prompt生成的结构化会议记录；做方案时带着用Prompt做的风险评估；写报告时说明"这份竞品分析是我用AI在1小时内完成的初稿"。用结果说话，比任何培训都有说服力。

第二步：低门槛分享。不要让Prompt分享变成一件正式的事。在日常工作协同（企业微信/飞书群）里，遇到好用的Prompt直接发出去，说明用途和效果。不用写教程，一个截图+"这是我用来做XX的Prompt"就够了。当分享变得轻松，积累就自然发生了。

第三步：让资产库成为工作入口。当有新人入职，给他们指向Prompt资产库，而不是让他们自己摸索。当有新项目启动，先在资产库里找相关Prompt，而不是从头写。把资产库嵌入工作流程，而不是让它停留在"有空去看看"的状态。

建立Prompt文化是一个3-6个月的事情，不是一次性的部署。但当它真正运转起来，团队的AI使用效率会有一个质变——从"几个人会用AI"到"整个团队用AI做事"。

6.6 工程化的最后一步：建立Prompt资产库

前面讲了单个Prompt的写法。这一节讲一个团队视角的话题：当你有了很多有效的Prompt，如何管理它们，让整个团队都能受益？

为什么需要Prompt资产库

很多团队的现状是这样的：A同学摸索出一个很好用的代码Review Prompt，在飞书群里分享了一次，然后就沉底了。B同学不知道这个，又自己摸索了两周。下次有新同学加入，这个过程再来一遍。

Prompt是团队的知识资产，但大多数团队把它当消耗品用。 建立一个简单的Prompt资产库，可以让整个团队的AI使用效率倍增。

而且还有一个更现实的价值：对产品架构师来说，Prompt资产库是你向业务方展示AI工作价值的最直观方式。当你能说"我们已经积累了XX个高效Prompt，覆盖了YY类业务场景，帮助团队节省了ZZ小时/月"——这比任何抽象的汇报都有说服力。

一个轻量级的Prompt资产管理方案

不需要复杂的工具，一个Notion/飞书文档就够：

# Prompt资产库 v1.0

## 场景分类
- 文档处理类
- 代码辅助类
- 分析决策类
- 写作生成类

---

## 代码Review助手
**版本**：v1.3
**最后更新**：2026-05-10
**使用频率**：每周约20次

**Prompt**：
[完整Prompt内容]

**效果说明**：
- 适用场景：Java/Python后端代码Review，侧重安全和性能
- 不适用：前端CSS/HTML样式相关

**已知局限**：
- 对超过500行的文件效果会下降，建议拆分
- 不会检查业务逻辑正确性，只关注代码质量

**贡献者**：@张三

产品架构师的判断：这个资产库的维护成本不应该超过使用收益。一个简单的标准：如果一个Prompt被用了超过5次，值得录入；如果录入后超过3个月没人用，可以归档。

Prompt资产库的评估指标

建立了资产库之后，怎么衡量它的价值？我用过三个指标：

1. 人均AI使用频率：团队每人每天使用AI工具的次数，反映资产库的普及效果。没有资产库的团队，AI使用通常集中在少数几个"自己摸索出来"的人。资产库建好之后，这个频率应该全团队均衡提升。

2. 任务完成一次通过率：第一次发出Prompt就得到可用输出的比率。有资产库时可以直接复用高质量Prompt，通过率显著高于"每次重新写"。

3. Prompt迭代速度：一个新任务类型从"第一次尝试"到"有稳定高效Prompt"需要多少轮迭代。有了资产库里的类似Prompt作为起点，新场景的探索速度会快很多——因为你不是从零开始，而是在成功案例上改进。

量化这些指标的简单方式：在资产库里每个Prompt增加一个使用记录字段，记录"用了多少次、成功率如何"。一个季度后你就有数据了。

从Prompt到AI工作流

当你把多个Prompt连接起来，就从"单次调用"升级到了"AI工作流"：

阶段1：提取要点
[Meeting Transcript Prompt] → 结构化会议纪要

阶段2：生成行动项
[Action Items Prompt] → 分配到各负责人的待办

阶段3：发送通知
[Notification Draft Prompt] → 邮件/消息草稿

阶段4（可选）：更新系统
[Jira/TAPD Ticket Prompt] → 自动创建任务工单

这已经是Agent的雏形了——下一章我们会深入讲这个话题。

本章小结

Prompt的本质是精确的需求说明书——角色+背景+任务+输出格式，这和写PRD是同一套思维。"随便问"效果差的根本原因是信息不完整，不是模型不好。
五种基础模式覆盖80%场景——角色设定、Few-shot示例、Chain-of-Thought、结构化输出、System Prompt。每种有固定的适用场景和使用技巧，不是每个场景都要全用。
Prompt工程化是AI产品的基础设施——模板化把Prompt从一次性消耗品变成可复用资产；版本管理让Prompt变更可追溯可回滚；AB测试让效果优化有数据支撑；实时监控让质量漂移可被及时发现。
失败有规律可循——六类主要失败模式（任务模糊/背景不足/示例质量差/指令冲突/超出能力边界/数据质量问题），每类有对应的诊断方法和修法。遇到效果瓶颈先排查是哪类问题，不要在错误维度上过度优化。
产品架构师的Prompt工具箱——方案评审、竞品分析、文档生成、会议纪要、技术选型五类模板，可以直接复用并在使用中持续改进。建立团队Prompt资产库是让这些工具真正发挥团队价值的关键步骤。

掌握了Prompt工程，你已经能精确地"指挥"AI。但一个真正有用的AI产品还面临另一个核心挑战：模型的知识来自训练数据，它不了解你的业务、你的文档、你的客户历史。下一章要讲的RAG，就是解决这个问题的答案——让AI在回答问题时，能实时检索和利用你的私有知识，而不只是靠它"记住"的那些训练数据。

附：Prompt跨模型迁移的注意事项

最后说一个很多人会遇到但不常被讨论的实际问题：你在GPT-4o上调好了一个效果很好的Prompt，切换到Claude或DeepSeek之后效果变差了——这是怎么回事？

根本原因：不同模型有不同的"训练偏好"，同样的Prompt在不同模型上激活的行为模式不同。

常见的差异：

1. 指令遵从敏感度不同

Claude对指令遵从度非常高——你说"只输出JSON，不要有任何其他文字"，它会严格遵守。GPT系列在某些情况下会在JSON前后加一些解释性文字（即使你没有要求）。如果你从Claude迁移到GPT，可能需要在格式约束上更明确地说"不要输出JSON之外的任何内容"。

2. 输出风格偏好不同

Claude倾向于更结构化、更有层次感的输出；GPT系列在创意写作方面更自然；DeepSeek的中文输出更本土化。如果你对风格有要求，迁移时需要明确描述期望风格，而不是假设两个模型会有一样的默认输出风格。

3. 安全过滤的宽严不同

不同模型对"敏感内容"的边界定义不同。Claude整体偏谨慎，某些正常商业问题可能触发拒答；GPT的边界相对宽松一些；国产模型对中文内容的合规敏感度更高。这会导致同一个Prompt在不同模型上的拒答率差异显著。

4. 上下文理解方式不同

超长上下文时，不同模型的"注意力"分布不同。Claude在200K token的上下文里保持较高的信息利用率；某些模型在超过其优化窗口后，对长上下文的末尾部分注意力会明显下降（Lost in the Middle问题）。

迁移建议：

不要直接复制粘贴Prompt就期望效果一样好
准备一个固定的测试集（30-50条）用于快速验证迁移效果
主要调整方向：输出格式约束的精确度、拒答边界的处理、风格描述的明确程度
对于关键生产Prompt，做一次专项的"迁移测试"而不是"上线后再说"

这一点在你做第5章的"保持模型可替换"原则时尤其重要——保持可替换不只是架构层面的标准接口，还需要Prompt层面的适配工作。切换模型不是"换一行代码"就搞定，是需要一次Prompt适配的工程工作。

一个完整的Prompt生命周期

综合以上内容，一个在产品中运行的Prompt，有完整的生命周期值得追踪：

设计阶段：写第一版Prompt，根据任务明确四要素，选择合适的模式
测试阶段：用测试集验证效果，计算准确率和格式合规率
上线阶段：版本化存储，走代码上线流程，配置监控
运营阶段：持续观察指标，收集真实失败案例
迭代阶段：基于运营数据优化，走AB测试，用数据决策
退役阶段：如果业务场景消失或被更好的方案替代，归档

大多数团队只经历了阶段1（随便写），有些团队到了阶段2（跑了些测试），能做到阶段3-6的很少。而这正是AI产品"做了很多，但感觉不稳定"和"每次上线都很有把握"之间的差距所在。

把Prompt当成一类工程资产来管理，是从"个人AI技巧"到"团队AI能力"的必经之路。

学习笔记-AIGC全栈认知与落地（6）

第6章 · 提示工程——产品架构师的第一个AI硬技能

开场：同一个需求，两种截然不同的结果

6.1 Prompt的本质：一份给AI的精确需求说明书

从PRD到Prompt：同一种思维

为什么"随便问"效果差

Prompt的四个核心要素

一个完整的Before/After对比

Prompt质量自检：写完后问自己三个问题

6.2 五种基础Prompt模式

模式一：角色设定（Role Prompting）——让模型扮演专家

模式二：Few-shot示例——给例子比讲道理更有效

模式三：Chain-of-Thought（CoT）——让模型一步步想

模式四：结构化输出约束——让输出可以直接用

模式五：System Prompt——产品级AI的基础设施

6.3 进阶模式：从单次调用到工程化Prompt

Prompt模板化：让Prompt成为可复用资产

Multi-turn策略：对话历史的管理艺术

输出约束与验证：从Prompt到产品的最后一公里

Prompt AB测试：哪版Prompt更好

实时Prompt质量监控

6.4 常见反模式：为什么你的Prompt不工作

反模式一：任务描述模糊

反模式二：背景信息不足

反模式三：示例选得不好（Wrong Shot）

反模式四：System Prompt指令冲突

反模式五：期望值超出模型能力

反模式六：过度依赖Prompt而忽视数据质量

6.5 产品架构师的Prompt工具箱

工具1：方案评审——让AI找漏洞

工具2：竞品调研——结构化对比

工具3：架构文档生成——从设计稿到文档

工具4：会议纪要处理——提取决策和行动项

工具5：技术选型分析

如何在实际工作中养成用模板的习惯

给团队建立Prompt文化的三步路

6.6 工程化的最后一步：建立Prompt资产库

为什么需要Prompt资产库

一个轻量级的Prompt资产管理方案

Prompt资产库的评估指标

从Prompt到AI工作流

本章小结

附：Prompt跨模型迁移的注意事项

一个完整的Prompt生命周期

延伸阅读