文本生成

结构化输出

提示工程(Prompt)

提示词工程的最佳实际:把 Prompt 和模型当成软件的一部分,用可重复、可量化的测试来保证质量,而不是依赖主观感受。

1.Test Suite测试套件(大量固定测试数据)
统计正确率,响应速度,平均长度,json是否合法,是否出现幻觉
2.Evaluation评估 (判断模型回答的好不好)
① 完全匹配
② AI Judge(LLM as Judge)让另一个模型评分
③ JSON是否合法
④ 工具调用成功率
3.升级模型要重新跑测试
4.Prompt修改也要重新测试
5.一个完整的 AI 开发流程
设计 Prompt


建立测试集(100~1000 个真实案例)


定义评估指标(准确率、JSON 合法率、工具调用成功率、成本、延迟等)


运行评估(Evals)


得到基线结果(例如准确率 96%)


修改 Prompt 或升级模型


再次运行同一套测试


比较前后指标


指标更好再上线,否则回滚
6.选择模型和API
6.1 推荐推理模型
处理问题的顺序:规划,分析,推理,分步骤解决问题
6.2 推荐Responses API
文本、图片、音频、工具调用、MCP、推理、Structured Output、Agent
6.3 消息角色(Message Roles)
Developer(定义模型行为、规则、身份)>User(提出当前需求和问题)>Assistant(提供上下文,保持对话连续性)
6.4 推荐instructions(System Prompt)
实际开发建议
如果你使用的是 GPT-5.5 + Responses API(也是 OpenAI 当前推荐的组合):
优先使用 instructions 来定义模型的长期行为(身份、风格、规则等)。
使用 input 放用户输入,以及需要保留的 User/Assistant 对话历史。
只有在需要精细控制消息历史或兼容旧代码时,才直接构造 role=“developer” 消息。
6.5 官方推荐的开发方式
应用开发模式:推理模型(如 GPT-5.5) + Responses API + instructions + 用户输入
选择模型


GPT-5.5(推理模型)


使用 Responses API

┌──────────┴──────────┐
▼ ▼
instructions(开发者指令) input(用户输入)
│ │
└──────────┬──────────┘

模型生成回复

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐