AI核心概念
前言
OpenAI,于2022年11月发布了,真正达到可用级别的大模型:GPT-3.5;
其后又在2023年3月发布了GPT-4;
本质
大模型的本质是:一个极其复杂的数学函数,通过预测下一个词,来与人进行交互;
比如:提问:今天天气怎样?大模型可能会先吐出:阳光,然后预测下一个词是:明;在“阳光明”后面接着预测下一个词,“媚”,最后组成答案:阳光明媚;
训练大模型时,给大模型足够多的数据时,它就能总结出一定的规律,从而实现一定的智能,大力出奇迹;
一、LLM
LLM,全称:Large Language Model,大语言模型,简称大模型;目前绝大多数的大模型,都是基于Transformer架构训练出来的;
二、Token
大模型处理文本的最基本单位;
大模型本身并不认识人类语言,大模型只认数字,那么就需要Tokenizer这个中间人来做一下翻译,Tokenizer分为以下两个部分:
编码
将文字转换成数字,分为两步:
第一步:切分,将用户的问题,拆分成一个一个最小的片段,比如说:今天的天气如何,拆分为:今天|的|天气|如何,每个片段就是一个Token;
第二步:映射:今天->47256,的->1616,天气->167823,如何->24608,每个数字就是一个Token ID;
解码
将数字转换成文字,只有一步,那就是解码,将数字映射成文字;
OpenAI提供了Token的分析网站:Tokenizer;值得注意的是,有时一个汉字并不表示一个Token;比如,今天的天气如何,会被分成4个Token;但是对于常见的英文字符,一个单词即是一个Token;
三、Context
Context,上下文,即大模型每次处理任务时,所接收到的信息总和;当你与大模型开启一段对话时,你每次发送消息时,并不只是发送了当前的消息,还发送了历史消息;
当然如果为了节省Token,或者不想使上下文有所关联时,可以选择:
a、清除上下文(如果聊天界面有这个功能的话);
b、 开启新的一轮会话;
四、Context Window
Context Window,上下文窗口,Context能容纳的最大Token数量,Context 并不是无限大的,每个模型都有一定的限制;
五、Prompt
Prompt,提示词,大模型接收的具体问题或指令;比如向大模型发出:帮我写一首诗,这就是一个Prompt;
Prompt分为两类,一类是
User Prompt:用户自己输入的(具体任务);
System Prompt:后台配置的(人设和做事规则);
下面举个例子说明:
System Prompt
你是一位耐心的数学老师。当学生问你数学问题时,不要直接给出答案,而是要一步一步引导学生思考,帮助他们理解解题思路。
User Prompt
3+5等于几?
大模型Answer
我们可以这样想,你手里有3个苹果,然后又拿了5个,现在一共有多少个呢?你可以数一数看。
如果没有System Prompt,那么大模型可能直接回答:8;
六、Tool
Tool,工具(也可以理解为函数);大模型的弱点:无法感知外界环境;Tool的本质是:给大模型提供一套,它可以调用外部的能力,让大模型能够感知和影响外部环境;
需要注意的是:大模型本身并不能调用工具,需要借助第三方平台,模型可以选择哪个工具,然后告诉平台,平台将工具调用结果返回给大模型,然后大模型将最终结果整理,并输出给用户;
七、MCP
MCP,全称Model Context Protocol,模型上下文协议,统一的工具接入标准;
OpenAI、Anthropic、Google各平台的工具接入规范,各不相同;同一个工具,需要写三遍;而此时,MCP就运应而生,开发者只需要按照MCP的规范,写一次代码,就可以在所有平台上使用;
八、Agent
Agent,能自主规划和调用工具,直至解决用户问题的程序;
目前Agent产品有:Claude Code、Codex、Gemini CLI等;
九、Agent Skill
Agent Skill,给Agent看的说明文档,本质是一个SKILL.md的markdown文档;其实是按照什么样的格式输出内容;
十、补充
1、Temperature
Temperature,不同词的概率差距。
调低:拉大差距,输出稳定;
调高:缩小差距,输出多样;
可以这样理解,Temperature,温度,温度越低,分子越稳定,多样性越低;温度越高,分子越活跃,多样性越高;
在AI(尤其是大语言模型LLM)中,Temperature参数的一般范围是 0 到 2。
详细说明:
-
大多数主流API的实际支持范围:
- OpenAI(GPT系列):0~2.0,默认值通常为1.0(部分模型默认0.7)。
- Google Gemini:0~2.0,默认1.0。
- Anthropic(Claude):0~1.0(上限严格限制在1.0),默认1.0。
- xAI Grok 等其他模型:多数也支持0~2。
-
实际使用中推荐范围(中文社区和开发者最常用):
- 0~0.5:输出非常确定性、精确,几乎总是选概率最高的词,适合代码生成、翻译、事实性问答等需要高准确性的场景。
- 0.6~1.0:平衡模式(最常用),既有一定创意又保持连贯性。默认值0.7~1.0就是这个区间。
- 1.1~2.0:高创意/随机模式,输出更多样、更有想象力,但容易出现幻觉(hallucination)或不连贯内容,适合故事创作、脑暴、诗歌等。
为什么有这个范围?
Temperature本质上是调整softmax采样时的“平滑度”:
- Temperature = 0 → 完全贪婪采样(greedy),永远选最可能的token。
- Temperature > 1 → 概率分布被“拉平”,低概率token更容易被选中,输出更“随机”。
- 超过2.0后,输出往往过于混乱、语义崩坏,所以API一般都限制上限。
总结建议:
普通聊天或生产环境用 0.7~1.0 就够了;需要更严谨就调低,需要更有趣就调高一点。
2、Top-p
Top-p,长尾词的概率阈值。
调低:去掉长尾,输出稳定;
调高:放宽门槛,输出多样;
可以这么理解,Top-p,就好比一块挡板,各个候选词的概率,从大到小,依次排列在一条0~1的直线上,比如:今天(0.4)| 杭州(0.3)| 水(0.2)| 猫( 0.1),如果Top-p为:0.7,那么就只会截取前两个词,然后将两个词,依据权重,重新分配概率;
在AI(尤其是大语言模型LLM)中,Top-p(也叫核采样 / Nucleus Sampling)参数的一般范围是 0.0 到 1.0。
详细说明(主流API实际支持范围):
- OpenAI(GPT系列):0.0~1.0,默认值 1.0(相当于不做额外过滤)。
- Google Gemini:0.0~1.0,默认值通常 0.95 或 1.0。
- Anthropic(Claude):支持 0.0~1.0,但默认不设置(或保持1.0),不是最主要的控制参数。
- xAI Grok、通义千问、其他开源模型:同样 0.0~1.0,默认接近 1.0 或 0.9~0.95。
实际使用中推荐范围(中文开发者最常用):
- 0.1~0.7:输出非常确定性、聚焦,适合需要高准确性、少幻觉的场景(如代码生成、事实问答、逻辑推理)。
- 0.8~0.95:平衡模式(最推荐),既保证多样性又不失连贯性。很多实际项目默认用 0.9。
- 0.96~1.0:接近完全开放,输出最多样,但容易出现随机或离题内容(适合创意写作、脑暴)。
注意:OpenAI官方建议——Temperature 和 Top-p 通常只调其中一个,不要同时大幅调整,否则效果可能互相冲突。很多开发者直接把 Top-p 固定为 0.9,然后只通过 Temperature 控制创意度。
Top-p 到底是怎么工作的?(和 Temperature 的区别)
- Temperature 是“拉平概率分布”:数值越大,低概率词越容易被选中。
- Top-p 是“动态截断”:先把所有词按概率从高到低排序,然后累加概率,直到累计达到 p(例如 0.9),只从这个“核”(nucleus)里的词采样。
→ 它自适应:当模型很“自信”时,只看很少几个高概率词;当分布很平时,就包含更多词。
举例(假设下一个词概率分布):
- Top-p = 0.9 → 可能只取前 3~10 个词(累加刚好到 90%),忽略后面长尾的低概率词。
- Top-p = 1.0 → 相当于不截断,所有词都可能被选(和 Temperature 一起用时更明显)。
总结建议:
- 普通聊天/生产环境:Top-p = 0.9 + Temperature = 0.7~1.0(最稳)。
- 需要极致精确:Top-p = 0.8 或更低 + Temperature = 0.2~0.5。
- 追求创意:Top-p = 0.95 + Temperature = 0.8~1.0。
- 如果你同时用两个参数,建议先把 Top-p 设为 0.9~1.0,再微调 Temperature。
Top-p 比 Top-k 更聪明(Top-k 是固定前 K 个词,Top-p 是动态的),目前几乎所有主流模型都优先推荐用 Top-p 而不是 Top-k。
更多推荐


所有评论(0)