大模型技术术语全景解析：从入门到精通的必备词汇表

冷小鱼

690人浏览 · 2026-03-10 16:15:33

冷小鱼 · 2026-03-10 16:15:33 发布

一、前言

随着 ChatGPT、Claude、通义千问等大模型的爆发式发展，AI 领域涌现了大量专业术语。对于开发者、产品经理或技术爱好者来说，理解这些术语是掌握大模型技术的基础。本文系统梳理了大模型领域核心概念、架构技术、训练方法、应用工程等维度的关键术语，帮助您建立完整的知识体系。

二、基础概念类

术语	英文	解释
大语言模型	Large Language Model (LLM)	基于深度学习的大规模预训练语言模型，通常包含数十亿至数千亿参数，能够理解和生成自然语言。代表：GPT-4、Claude、通义千问
基础模型	Foundation Model	在大规模无标注数据上预训练得到的基础能力模型，可作为下游任务的起点。需通过微调或提示工程适配具体场景
参数	Parameters	模型中可学习的权重变量，决定模型的行为和输出。参数量越大，模型容量通常越强（如 7B 表示 70 亿参数）
Token	Token	模型处理文本的最小单位，可以是单词、子词或字符。如 “ChatGPT” 可能被拆分为 [“Chat”, “G”, “PT”] 三个 token
上下文窗口	Context Window	模型单次能处理的最大 token 数量，决定"记忆"长度。早期 GPT-3 为 2K，GPT-4 Turbo 达 128K，Claude 3 达 200K
幻觉	Hallucination	模型生成看似合理但实际错误或虚构的内容。是大模型目前的主要局限之一
涌现能力	Emergent Ability	模型规模达到某个阈值后突然展现的新能力（如推理、指令遵循），小模型不具备
对齐	Alignment	使模型行为符合人类价值观和意图的过程，通常通过 RLHF 等技术实现

三、架构技术类

3.1 核心架构

术语	英文	解释
Transformer	Transformer	当前大模型的主流架构，基于自注意力机制，由 Google 2017 年提出。核心组件：多头注意力、前馈网络、位置编码
注意力机制	Attention Mechanism	让模型在处理序列时动态关注不同位置的能力。公式：Attention(Q,K,V) = softmax(QK^T/√d_k)V
自注意力	Self-Attention	序列中每个位置都能"看到"其他所有位置，计算它们之间的关联权重
多头注意力	Multi-Head Attention	并行计算多组注意力，捕捉不同子空间的信息，增强表达能力
位置编码	Positional Encoding	为模型注入序列位置信息的方法，因为注意力机制本身不包含位置概念
MoE	Mixture of Experts	混合专家模型，将大模型拆分为多个"专家"子网络，通过门控机制选择激活部分专家，提升效率
稠密模型	Dense Model	所有参数在推理时都被激活的传统模型（如 GPT-3），与 MoE 的稀疏激活相对

3.2 模型变体

术语	英文	解释
Encoder	编码器	将输入序列编码为向量的模型部分，擅长理解任务（如 BERT）
Decoder	解码器	根据编码生成输出的模型部分，擅长生成任务（如 GPT）
Encoder-Decoder	编解码器	同时包含编码器和解码器的架构（如 T5、BART），适用于翻译、摘要等序列转换任务
仅解码器架构	Decoder-only	当前主流生成模型架构（GPT 系列），通过因果掩码实现自回归生成

四、训练方法类

4.1 预训练阶段

术语	英文	解释
预训练	Pre-training	在大规模无标注语料上学习通用语言表示的阶段，通常采用自监督学习（如预测下一个词）
自监督学习	Self-Supervised Learning	无需人工标注，从数据本身构造监督信号（如掩码语言建模、自回归建模）
下一个词预测	Next Token Prediction	GPT 类模型的核心预训练任务，根据前文预测下一个 token
掩码语言建模	Masked Language Modeling (MLM)	BERT 的预训练方式，随机掩码部分词并预测，学习双向上下文
训练数据	Training Corpus	预训练使用的海量文本数据，通常包含网页、书籍、代码等，TB 级别
数据清洗	Data Cleaning	去除低质量、重复、有害内容的过程，对模型性能至关重要
Tokenization	分词	将文本切分为 token 的过程，常用算法：BPE（Byte Pair Encoding）、WordPiece、SentencePiece

4.2 微调阶段

术语	英文	解释
微调	Fine-tuning	在预训练模型基础上，使用特定领域数据继续训练，适配下游任务
全参数微调	Full Fine-tuning	更新模型的所有参数，效果最佳但计算成本高
参数高效微调	Parameter-Efficient Fine-Tuning (PEFT)	只更新少量参数（如 LoRA、Adapter），降低计算和存储成本
LoRA	Low-Rank Adaptation	低秩适应，通过低秩矩阵近似参数更新，显著减少可训练参数
指令微调	Instruction Tuning	使用（指令，输出）配对数据训练，使模型学会遵循人类指令
SFT	Supervised Fine-Tuning	监督微调，指令微调的具体实现方式，通过有监督学习优化
多轮对话微调	Multi-turn Fine-tuning	使用多轮对话数据训练，提升模型的上下文理解和对话能力

4.3 对齐阶段

术语	英文	解释
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习，通过奖励模型学习人类偏好，提升输出质量
奖励模型	Reward Model (RM)	学习人类偏好的评分模型，为 RLHF 提供奖励信号
PPO	Proximal Policy Optimization	近端策略优化，RLHF 中常用的强化学习算法
DPO	Direct Preference Optimization	直接偏好优化，无需显式奖励模型，直接用偏好数据优化策略
Constitutional AI	宪法 AI	Anthropic 提出的对齐方法，让模型根据一套"宪法原则"自我批评和改进
红队测试	Red Teaming	主动寻找模型漏洞和有害输出的测试过程，用于提升安全性

五、推理与生成类

术语	英文	解释
推理	Inference	使用训练好的模型生成输出的过程，区别于训练阶段
生成	Generation	模型自回归地逐个生成 token 的过程
自回归	Autoregressive	逐个生成 token，每个新 token 依赖已生成的序列（从左到右生成）
Temperature	温度	控制生成随机性的参数。低温度（0.1）输出更确定，高温度（0.9）更随机
Top-k 采样	Top-k Sampling	从概率最高的 k 个 token 中采样，平衡多样性和质量
Top-p 采样	Top-p Sampling (Nucleus Sampling)	从累积概率达到 p 的最小 token 集合中采样，动态调整候选集大小
Beam Search	束搜索	维护多个候选序列，选择整体概率最高的输出，适合翻译等任务
重复惩罚	Repetition Penalty	降低已生成 token 的概率，避免重复输出
最大生成长度	Max Length	限制生成 token 的最大数量，控制输出长度
停止序列	Stop Sequence	遇到特定字符串时停止生成（如遇到 “\nHuman:” 停止）

六、提示工程类

术语	英文	解释
提示工程	Prompt Engineering	设计和优化输入提示（prompt），引导模型产生期望输出的技术
零样本提示	Zero-shot Prompting	直接给出任务描述，不提供示例，测试模型固有能力
少样本提示	Few-shot Prompting	提供几个输入-输出示例，让模型学习任务模式
思维链	Chain-of-Thought (CoT)	提示模型展示中间推理步骤，显著提升复杂推理能力（如数学、逻辑题）
少样本思维链	Few-shot CoT	结合示例和推理步骤的提示方法，效果通常最佳
零样本思维链	Zero-shot CoT	仅添加"Let’s think step by step"等触发词，诱导模型推理
系统提示	System Prompt	设定模型角色和全局行为的提示（如"你是一位 helpful 的助手"）
用户提示	User Prompt	用户的具体输入或问题
角色扮演	Role Playing	让模型扮演特定角色（如专家、老师），改变输出风格
提示注入	Prompt Injection	攻击者通过精心构造的输入，覆盖系统提示或诱导模型输出有害内容

七、模型评估类

术语	英文	解释
Perplexity	困惑度	衡量模型预测下一个词的不确定性，越低表示模型对文本预测越准确
BLEU	Bilingual Evaluation Understudy	评估生成文本与参考文本相似度的指标，常用于机器翻译
ROUGE	Recall-Oriented Understudy for Gisting Evaluation	基于召回率的评估指标，常用于摘要任务
MMLU	Massive Multitask Language Understanding	大规模多任务语言理解基准，测试模型在 57 个学科的知识水平
HumanEval	HumanEval	OpenAI 提出的代码生成评估基准，测试编程能力
GSM8K	Grade School Math 8K	小学数学应用题基准，测试数学推理能力
TruthfulQA	TruthfulQA	测试模型回答的真实性，识别幻觉能力
HellaSwag	HellaSwag	常识推理基准，测试句子完成情况
Arena	Chatbot Arena	LMSYS 组织的模型对战平台，通过人类偏好投票评估模型

八、工程部署类

术语	英文	解释
量化	Quantization	将模型权重从高精度（FP32/FP16）转换为低精度（INT8/INT4），减少显存占用
INT8/INT4	8-bit/4-bit Integer	8 位/4 位整数量化，显著压缩模型大小，可能带来轻微精度损失
GGUF/GGML	-	llama.cpp 使用的量化格式，支持在 CPU 上高效运行大模型
AWQ/GPTQ	-	先进的量化方法，在保持精度的同时实现高效推理
推理加速	Inference Acceleration	通过优化技术（如 KV Cache、Continuous Batching）提升生成速度
KV Cache	Key-Value Cache	缓存注意力机制中的 Key 和 Value，避免重复计算，加速自回归生成
Continuous Batching	连续批处理	动态组合不同请求的生成步骤，提升 GPU 利用率
流式输出	Streaming	逐字/逐句返回生成结果，提升用户体验，减少等待时间
模型并行	Model Parallelism	将模型切分到多 GPU 上，解决单卡显存不足问题
数据并行	Data Parallelism	将数据分批到多 GPU 同时处理，加速训练
流水线并行	Pipeline Parallelism	将模型按层切分，不同层在不同 GPU 上，形成处理流水线
张量并行	Tensor Parallelism	将单层内的计算切分到多 GPU，如将矩阵乘法拆分
vLLM	-	高吞吐量 LLM 推理引擎，采用 PagedAttention 优化内存管理
Text Generation Inference (TGI)	-	Hugging Face 推出的高性能推理框架
模型服务	Model Serving	将模型部署为 API 服务，支持高并发调用

九、多模态与扩展类

术语	英文	解释
多模态	Multimodal	同时处理多种模态（文本、图像、音频、视频）的能力
VLM	Vision Language Model	视觉语言模型，理解图像和文本（如 GPT-4V、Qwen-VL）
Embedding	嵌入	将文本/图像等转换为高维向量表示，用于语义搜索、RAG 等
RAG	Retrieval-Augmented Generation	检索增强生成，结合外部知识库检索，减少幻觉，提升时效性
向量数据库	Vector Database	存储和检索高维向量的数据库（如 Milvus、Pinecone、Chroma）
Agent	智能体	能自主规划、使用工具、执行多步骤任务的 AI 系统
Function Calling	函数调用	模型识别需要调用外部工具/函数，并生成结构化调用参数
ReAct	Reasoning + Acting	推理与行动结合的 Agent 框架，交替进行思考和工具调用
多 Agent 系统	Multi-Agent System	多个 Agent 协作完成任务，模拟团队工作流
Long Context	长上下文	处理超长文本（100K+ tokens）的能力，需优化注意力计算

十、安全与伦理类

术语	英文	解释
越狱	Jailbreak	绕过模型安全限制，诱导其生成有害内容的攻击手段
提示注入	Prompt Injection	通过恶意输入操控模型行为的攻击方式
数据投毒	Data Poisoning	在训练数据中注入恶意样本，影响模型行为
模型窃取	Model Extraction	通过大量查询复制模型功能，窃取知识产权
隐私泄露	Privacy Leakage	模型训练数据中的敏感信息被生成的风险
可解释性	Interpretability	理解模型决策过程和内部机制的能力
红队测试	Red Teaming	模拟攻击者寻找模型漏洞的安全测试方法
内容审核	Content Moderation	过滤有害、不当内容的机制和技术
公平性	Fairness	模型对不同群体不产生偏见和歧视的性质

十一、总结

大模型技术正处于快速发展期，新术语层出不穷。掌握这些核心概念，有助于：

理解技术原理：深入阅读论文和技术报告
高效沟通交流：与同行、社区准确讨论问题
指导工程实践：做出合理的技术选型和架构设计
跟踪前沿动态：快速理解新模型、新方法的核心创新

建议收藏本文作为速查手册，遇到陌生术语随时查阅。随着技术演进，部分术语可能会被新的概念取代，保持持续学习是关键。

十二、参考资源

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

小白程序员轻松入门大模型Agent工程化实践（含Tool Calling、LangChain、RAG、Eval）

MCP技术社区

Claude Certified知识点复习：MCP 工具接口设计指南:给架构师的三个 primitive 选型清单

宿主应用给用户一个"附加 wiki 页面"的 UI,选中的页面进入上下文,Claude 直接读,不需要猜。它是三种里用得最少的,但合适的时候非常合适。Resource 是 MCP 生态里被严重低估的 primitive —— 它在比大家想象得更多的场景里才是对的答案。模型读每个工具的 description,中间决定某一个相关,带参数调用,结果作为 tool_result 折回上下文。当 tool