前言

OpenAI,于2022年11月发布了,真正达到可用级别的大模型:GPT-3.5;
其后又在2023年3月发布了GPT-4;


本质

大模型的本质是:一个极其复杂的数学函数,通过预测下一个词,来与人进行交互;
比如:提问:今天天气怎样?大模型可能会先吐出:阳光,然后预测下一个词是:明;在“阳光明”后面接着预测下一个词,“媚”,最后组成答案:阳光明媚;

训练大模型时,给大模型足够多的数据时,它就能总结出一定的规律,从而实现一定的智能,大力出奇迹


一、LLM

LLM,全称:Large Language Model,大语言模型,简称大模型;目前绝大多数的大模型,都是基于Transformer架构训练出来的;


二、Token

大模型处理文本的最基本单位
大模型本身并不认识人类语言,大模型只认数字,那么就需要Tokenizer这个中间人来做一下翻译,Tokenizer分为以下两个部分:

编码
将文字转换成数字,分为两步:

第一步:切分,将用户的问题,拆分成一个一个最小的片段,比如说:今天的天气如何,拆分为:今天|的|天气|如何,每个片段就是一个Token;

第二步:映射:今天->47256,的->1616,天气->167823,如何->24608,每个数字就是一个Token ID;

解码
将数字转换成文字,只有一步,那就是解码,将数字映射成文字;

OpenAI提供了Token的分析网站:Tokenizer;值得注意的是,有时一个汉字并不表示一个Token;比如,今天的天气如何,会被分成4个Token;但是对于常见的英文字符,一个单词即是一个Token;


三、Context

Context,上下文,即大模型每次处理任务时,所接收到的信息总和;当你与大模型开启一段对话时,你每次发送消息时,并不只是发送了当前的消息,还发送了历史消息;

当然如果为了节省Token,或者不想使上下文有所关联时,可以选择:
a、清除上下文(如果聊天界面有这个功能的话);
b、 开启新的一轮会话;


四、Context Window

Context Window,上下文窗口,Context能容纳的最大Token数量,Context 并不是无限大的,每个模型都有一定的限制;


五、Prompt

Prompt,提示词,大模型接收的具体问题或指令;比如向大模型发出:帮我写一首诗,这就是一个Prompt;

Prompt分为两类,一类是
User Prompt:用户自己输入的(具体任务);
System Prompt:后台配置的(人设和做事规则);

下面举个例子说明:
System Prompt
你是一位耐心的数学老师。当学生问你数学问题时,不要直接给出答案,而是要一步一步引导学生思考,帮助他们理解解题思路。

User Prompt
3+5等于几?

大模型Answer
我们可以这样想,你手里有3个苹果,然后又拿了5个,现在一共有多少个呢?你可以数一数看。

如果没有System Prompt,那么大模型可能直接回答:8


六、Tool

Tool,工具(也可以理解为函数);大模型的弱点:无法感知外界环境;Tool的本质是:给大模型提供一套,它可以调用外部的能力,让大模型能够感知和影响外部环境;

需要注意的是:大模型本身并不能调用工具,需要借助第三方平台,模型可以选择哪个工具,然后告诉平台,平台将工具调用结果返回给大模型,然后大模型将最终结果整理,并输出给用户;


七、MCP

MCP,全称Model Context Protocol,模型上下文协议,统一的工具接入标准
OpenAI、Anthropic、Google各平台的工具接入规范,各不相同;同一个工具,需要写三遍;而此时,MCP就运应而生,开发者只需要按照MCP的规范,写一次代码,就可以在所有平台上使用;


八、Agent

Agent,能自主规划和调用工具,直至解决用户问题的程序;

目前Agent产品有:Claude Code、Codex、Gemini CLI等;


九、Agent Skill

Agent Skill,给Agent看的说明文档,本质是一个SKILL.md的markdown文档;其实是按照什么样的格式输出内容;


十、补充

1、Temperature

Temperature,不同词的概率差距。
调低:拉大差距,输出稳定;
调高:缩小差距,输出多样;

可以这样理解,Temperature,温度,温度越低,分子越稳定,多样性越低;温度越高,分子越活跃,多样性越高;

在AI(尤其是大语言模型LLM)中,Temperature参数的一般范围是 0 到 2。

详细说明:

  • 大多数主流API的实际支持范围

    • OpenAI(GPT系列):0~2.0,默认值通常为1.0(部分模型默认0.7)。
    • Google Gemini:0~2.0,默认1.0。
    • Anthropic(Claude):0~1.0(上限严格限制在1.0),默认1.0。
    • xAI Grok 等其他模型:多数也支持0~2。
  • 实际使用中推荐范围(中文社区和开发者最常用):

    • 0~0.5:输出非常确定性、精确,几乎总是选概率最高的词,适合代码生成、翻译、事实性问答等需要高准确性的场景。
    • 0.6~1.0平衡模式(最常用),既有一定创意又保持连贯性。默认值0.7~1.0就是这个区间。
    • 1.1~2.0高创意/随机模式,输出更多样、更有想象力,但容易出现幻觉(hallucination)或不连贯内容,适合故事创作、脑暴、诗歌等。

为什么有这个范围?

Temperature本质上是调整softmax采样时的“平滑度”:

  • Temperature = 0 → 完全贪婪采样(greedy),永远选最可能的token。
  • Temperature > 1 → 概率分布被“拉平”,低概率token更容易被选中,输出更“随机”。
  • 超过2.0后,输出往往过于混乱、语义崩坏,所以API一般都限制上限。

总结建议
普通聊天或生产环境用 0.7~1.0 就够了;需要更严谨就调低,需要更有趣就调高一点。


2、Top-p

Top-p,长尾词的概率阈值。
调低:去掉长尾,输出稳定;
调高:放宽门槛,输出多样;

可以这么理解,Top-p,就好比一块挡板,各个候选词的概率,从大到小,依次排列在一条0~1的直线上,比如:今天(0.4)| 杭州(0.3)| 水(0.2)| 猫( 0.1),如果Top-p为:0.7,那么就只会截取前两个词,然后将两个词,依据权重,重新分配概率;

在AI(尤其是大语言模型LLM)中,Top-p(也叫核采样 / Nucleus Sampling)参数的一般范围是 0.0 到 1.0。

详细说明(主流API实际支持范围):

  • OpenAI(GPT系列):0.0~1.0,默认值 1.0(相当于不做额外过滤)。
  • Google Gemini:0.0~1.0,默认值通常 0.95 或 1.0。
  • Anthropic(Claude):支持 0.0~1.0,但默认不设置(或保持1.0),不是最主要的控制参数。
  • xAI Grok、通义千问、其他开源模型:同样 0.0~1.0,默认接近 1.0 或 0.9~0.95。

实际使用中推荐范围(中文开发者最常用):

  • 0.1~0.7:输出非常确定性、聚焦,适合需要高准确性、少幻觉的场景(如代码生成、事实问答、逻辑推理)。
  • 0.8~0.95平衡模式(最推荐),既保证多样性又不失连贯性。很多实际项目默认用 0.9
  • 0.96~1.0:接近完全开放,输出最多样,但容易出现随机或离题内容(适合创意写作、脑暴)。

注意:OpenAI官方建议——Temperature 和 Top-p 通常只调其中一个,不要同时大幅调整,否则效果可能互相冲突。很多开发者直接把 Top-p 固定为 0.9,然后只通过 Temperature 控制创意度。

Top-p 到底是怎么工作的?(和 Temperature 的区别)

  • Temperature 是“拉平概率分布”:数值越大,低概率词越容易被选中。
  • Top-p 是“动态截断”:先把所有词按概率从高到低排序,然后累加概率,直到累计达到 p(例如 0.9),只从这个“核”(nucleus)里的词采样。
    → 它自适应:当模型很“自信”时,只看很少几个高概率词;当分布很平时,就包含更多词。

举例(假设下一个词概率分布):

  • Top-p = 0.9 → 可能只取前 3~10 个词(累加刚好到 90%),忽略后面长尾的低概率词。
  • Top-p = 1.0 → 相当于不截断,所有词都可能被选(和 Temperature 一起用时更明显)。

总结建议:

  • 普通聊天/生产环境:Top-p = 0.9 + Temperature = 0.7~1.0(最稳)。
  • 需要极致精确:Top-p = 0.8 或更低 + Temperature = 0.2~0.5。
  • 追求创意:Top-p = 0.95 + Temperature = 0.8~1.0。
  • 如果你同时用两个参数,建议先把 Top-p 设为 0.9~1.0,再微调 Temperature。

Top-p 比 Top-k 更聪明(Top-k 是固定前 K 个词,Top-p 是动态的),目前几乎所有主流模型都优先推荐用 Top-p 而不是 Top-k。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐