大模型技术术语全景解析:从入门到精通的必备词汇表
·
一、前言
随着 ChatGPT、Claude、通义千问等大模型的爆发式发展,AI 领域涌现了大量专业术语。对于开发者、产品经理或技术爱好者来说,理解这些术语是掌握大模型技术的基础。本文系统梳理了大模型领域核心概念、架构技术、训练方法、应用工程等维度的关键术语,帮助您建立完整的知识体系。
二、基础概念类
| 术语 | 英文 | 解释 |
|---|---|---|
| 大语言模型 | Large Language Model (LLM) | 基于深度学习的大规模预训练语言模型,通常包含数十亿至数千亿参数,能够理解和生成自然语言。代表:GPT-4、Claude、通义千问 |
| 基础模型 | Foundation Model | 在大规模无标注数据上预训练得到的基础能力模型,可作为下游任务的起点。需通过微调或提示工程适配具体场景 |
| 参数 | Parameters | 模型中可学习的权重变量,决定模型的行为和输出。参数量越大,模型容量通常越强(如 7B 表示 70 亿参数) |
| Token | Token | 模型处理文本的最小单位,可以是单词、子词或字符。如 “ChatGPT” 可能被拆分为 [“Chat”, “G”, “PT”] 三个 token |
| 上下文窗口 | Context Window | 模型单次能处理的最大 token 数量,决定"记忆"长度。早期 GPT-3 为 2K,GPT-4 Turbo 达 128K,Claude 3 达 200K |
| 幻觉 | Hallucination | 模型生成看似合理但实际错误或虚构的内容。是大模型目前的主要局限之一 |
| 涌现能力 | Emergent Ability | 模型规模达到某个阈值后突然展现的新能力(如推理、指令遵循),小模型不具备 |
| 对齐 | Alignment | 使模型行为符合人类价值观和意图的过程,通常通过 RLHF 等技术实现 |
三、架构技术类
3.1 核心架构
| 术语 | 英文 | 解释 |
|---|---|---|
| Transformer | Transformer | 当前大模型的主流架构,基于自注意力机制,由 Google 2017 年提出。核心组件:多头注意力、前馈网络、位置编码 |
| 注意力机制 | Attention Mechanism | 让模型在处理序列时动态关注不同位置的能力。公式:Attention(Q,K,V) = softmax(QK^T/√d_k)V |
| 自注意力 | Self-Attention | 序列中每个位置都能"看到"其他所有位置,计算它们之间的关联权重 |
| 多头注意力 | Multi-Head Attention | 并行计算多组注意力,捕捉不同子空间的信息,增强表达能力 |
| 位置编码 | Positional Encoding | 为模型注入序列位置信息的方法,因为注意力机制本身不包含位置概念 |
| MoE | Mixture of Experts | 混合专家模型,将大模型拆分为多个"专家"子网络,通过门控机制选择激活部分专家,提升效率 |
| 稠密模型 | Dense Model | 所有参数在推理时都被激活的传统模型(如 GPT-3),与 MoE 的稀疏激活相对 |
3.2 模型变体
| 术语 | 英文 | 解释 |
|---|---|---|
| Encoder | 编码器 | 将输入序列编码为向量的模型部分,擅长理解任务(如 BERT) |
| Decoder | 解码器 | 根据编码生成输出的模型部分,擅长生成任务(如 GPT) |
| Encoder-Decoder | 编解码器 | 同时包含编码器和解码器的架构(如 T5、BART),适用于翻译、摘要等序列转换任务 |
| 仅解码器架构 | Decoder-only | 当前主流生成模型架构(GPT 系列),通过因果掩码实现自回归生成 |
四、训练方法类
4.1 预训练阶段
| 术语 | 英文 | 解释 |
|---|---|---|
| 预训练 | Pre-training | 在大规模无标注语料上学习通用语言表示的阶段,通常采用自监督学习(如预测下一个词) |
| 自监督学习 | Self-Supervised Learning | 无需人工标注,从数据本身构造监督信号(如掩码语言建模、自回归建模) |
| 下一个词预测 | Next Token Prediction | GPT 类模型的核心预训练任务,根据前文预测下一个 token |
| 掩码语言建模 | Masked Language Modeling (MLM) | BERT 的预训练方式,随机掩码部分词并预测,学习双向上下文 |
| 训练数据 | Training Corpus | 预训练使用的海量文本数据,通常包含网页、书籍、代码等,TB 级别 |
| 数据清洗 | Data Cleaning | 去除低质量、重复、有害内容的过程,对模型性能至关重要 |
| Tokenization | 分词 | 将文本切分为 token 的过程,常用算法:BPE(Byte Pair Encoding)、WordPiece、SentencePiece |
4.2 微调阶段
| 术语 | 英文 | 解释 |
|---|---|---|
| 微调 | Fine-tuning | 在预训练模型基础上,使用特定领域数据继续训练,适配下游任务 |
| 全参数微调 | Full Fine-tuning | 更新模型的所有参数,效果最佳但计算成本高 |
| 参数高效微调 | Parameter-Efficient Fine-Tuning (PEFT) | 只更新少量参数(如 LoRA、Adapter),降低计算和存储成本 |
| LoRA | Low-Rank Adaptation | 低秩适应,通过低秩矩阵近似参数更新,显著减少可训练参数 |
| 指令微调 | Instruction Tuning | 使用(指令,输出)配对数据训练,使模型学会遵循人类指令 |
| SFT | Supervised Fine-Tuning | 监督微调,指令微调的具体实现方式,通过有监督学习优化 |
| 多轮对话微调 | Multi-turn Fine-tuning | 使用多轮对话数据训练,提升模型的上下文理解和对话能力 |
4.3 对齐阶段
| 术语 | 英文 | 解释 |
|---|---|---|
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习,通过奖励模型学习人类偏好,提升输出质量 |
| 奖励模型 | Reward Model (RM) | 学习人类偏好的评分模型,为 RLHF 提供奖励信号 |
| PPO | Proximal Policy Optimization | 近端策略优化,RLHF 中常用的强化学习算法 |
| DPO | Direct Preference Optimization | 直接偏好优化,无需显式奖励模型,直接用偏好数据优化策略 |
| Constitutional AI | 宪法 AI | Anthropic 提出的对齐方法,让模型根据一套"宪法原则"自我批评和改进 |
| 红队测试 | Red Teaming | 主动寻找模型漏洞和有害输出的测试过程,用于提升安全性 |
五、推理与生成类
| 术语 | 英文 | 解释 |
|---|---|---|
| 推理 | Inference | 使用训练好的模型生成输出的过程,区别于训练阶段 |
| 生成 | Generation | 模型自回归地逐个生成 token 的过程 |
| 自回归 | Autoregressive | 逐个生成 token,每个新 token 依赖已生成的序列(从左到右生成) |
| Temperature | 温度 | 控制生成随机性的参数。低温度(0.1)输出更确定,高温度(0.9)更随机 |
| Top-k 采样 | Top-k Sampling | 从概率最高的 k 个 token 中采样,平衡多样性和质量 |
| Top-p 采样 | Top-p Sampling (Nucleus Sampling) | 从累积概率达到 p 的最小 token 集合中采样,动态调整候选集大小 |
| Beam Search | 束搜索 | 维护多个候选序列,选择整体概率最高的输出,适合翻译等任务 |
| 重复惩罚 | Repetition Penalty | 降低已生成 token 的概率,避免重复输出 |
| 最大生成长度 | Max Length | 限制生成 token 的最大数量,控制输出长度 |
| 停止序列 | Stop Sequence | 遇到特定字符串时停止生成(如遇到 “\nHuman:” 停止) |
六、提示工程类
| 术语 | 英文 | 解释 |
|---|---|---|
| 提示工程 | Prompt Engineering | 设计和优化输入提示(prompt),引导模型产生期望输出的技术 |
| 零样本提示 | Zero-shot Prompting | 直接给出任务描述,不提供示例,测试模型固有能力 |
| 少样本提示 | Few-shot Prompting | 提供几个输入-输出示例,让模型学习任务模式 |
| 思维链 | Chain-of-Thought (CoT) | 提示模型展示中间推理步骤,显著提升复杂推理能力(如数学、逻辑题) |
| 少样本思维链 | Few-shot CoT | 结合示例和推理步骤的提示方法,效果通常最佳 |
| 零样本思维链 | Zero-shot CoT | 仅添加"Let’s think step by step"等触发词,诱导模型推理 |
| 系统提示 | System Prompt | 设定模型角色和全局行为的提示(如"你是一位 helpful 的助手") |
| 用户提示 | User Prompt | 用户的具体输入或问题 |
| 角色扮演 | Role Playing | 让模型扮演特定角色(如专家、老师),改变输出风格 |
| 提示注入 | Prompt Injection | 攻击者通过精心构造的输入,覆盖系统提示或诱导模型输出有害内容 |
七、模型评估类
| 术语 | 英文 | 解释 |
|---|---|---|
| Perplexity | 困惑度 | 衡量模型预测下一个词的不确定性,越低表示模型对文本预测越准确 |
| BLEU | Bilingual Evaluation Understudy | 评估生成文本与参考文本相似度的指标,常用于机器翻译 |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation | 基于召回率的评估指标,常用于摘要任务 |
| MMLU | Massive Multitask Language Understanding | 大规模多任务语言理解基准,测试模型在 57 个学科的知识水平 |
| HumanEval | HumanEval | OpenAI 提出的代码生成评估基准,测试编程能力 |
| GSM8K | Grade School Math 8K | 小学数学应用题基准,测试数学推理能力 |
| TruthfulQA | TruthfulQA | 测试模型回答的真实性,识别幻觉能力 |
| HellaSwag | HellaSwag | 常识推理基准,测试句子完成情况 |
| Arena | Chatbot Arena | LMSYS 组织的模型对战平台,通过人类偏好投票评估模型 |
八、工程部署类
| 术语 | 英文 | 解释 |
|---|---|---|
| 量化 | Quantization | 将模型权重从高精度(FP32/FP16)转换为低精度(INT8/INT4),减少显存占用 |
| INT8/INT4 | 8-bit/4-bit Integer | 8 位/4 位整数量化,显著压缩模型大小,可能带来轻微精度损失 |
| GGUF/GGML | - | llama.cpp 使用的量化格式,支持在 CPU 上高效运行大模型 |
| AWQ/GPTQ | - | 先进的量化方法,在保持精度的同时实现高效推理 |
| 推理加速 | Inference Acceleration | 通过优化技术(如 KV Cache、Continuous Batching)提升生成速度 |
| KV Cache | Key-Value Cache | 缓存注意力机制中的 Key 和 Value,避免重复计算,加速自回归生成 |
| Continuous Batching | 连续批处理 | 动态组合不同请求的生成步骤,提升 GPU 利用率 |
| 流式输出 | Streaming | 逐字/逐句返回生成结果,提升用户体验,减少等待时间 |
| 模型并行 | Model Parallelism | 将模型切分到多 GPU 上,解决单卡显存不足问题 |
| 数据并行 | Data Parallelism | 将数据分批到多 GPU 同时处理,加速训练 |
| 流水线并行 | Pipeline Parallelism | 将模型按层切分,不同层在不同 GPU 上,形成处理流水线 |
| 张量并行 | Tensor Parallelism | 将单层内的计算切分到多 GPU,如将矩阵乘法拆分 |
| vLLM | - | 高吞吐量 LLM 推理引擎,采用 PagedAttention 优化内存管理 |
| Text Generation Inference (TGI) | - | Hugging Face 推出的高性能推理框架 |
| 模型服务 | Model Serving | 将模型部署为 API 服务,支持高并发调用 |
九、多模态与扩展类
| 术语 | 英文 | 解释 |
|---|---|---|
| 多模态 | Multimodal | 同时处理多种模态(文本、图像、音频、视频)的能力 |
| VLM | Vision Language Model | 视觉语言模型,理解图像和文本(如 GPT-4V、Qwen-VL) |
| Embedding | 嵌入 | 将文本/图像等转换为高维向量表示,用于语义搜索、RAG 等 |
| RAG | Retrieval-Augmented Generation | 检索增强生成,结合外部知识库检索,减少幻觉,提升时效性 |
| 向量数据库 | Vector Database | 存储和检索高维向量的数据库(如 Milvus、Pinecone、Chroma) |
| Agent | 智能体 | 能自主规划、使用工具、执行多步骤任务的 AI 系统 |
| Function Calling | 函数调用 | 模型识别需要调用外部工具/函数,并生成结构化调用参数 |
| ReAct | Reasoning + Acting | 推理与行动结合的 Agent 框架,交替进行思考和工具调用 |
| 多 Agent 系统 | Multi-Agent System | 多个 Agent 协作完成任务,模拟团队工作流 |
| Long Context | 长上下文 | 处理超长文本(100K+ tokens)的能力,需优化注意力计算 |
十、安全与伦理类
| 术语 | 英文 | 解释 |
|---|---|---|
| 越狱 | Jailbreak | 绕过模型安全限制,诱导其生成有害内容的攻击手段 |
| 提示注入 | Prompt Injection | 通过恶意输入操控模型行为的攻击方式 |
| 数据投毒 | Data Poisoning | 在训练数据中注入恶意样本,影响模型行为 |
| 模型窃取 | Model Extraction | 通过大量查询复制模型功能,窃取知识产权 |
| 隐私泄露 | Privacy Leakage | 模型训练数据中的敏感信息被生成的风险 |
| 可解释性 | Interpretability | 理解模型决策过程和内部机制的能力 |
| 红队测试 | Red Teaming | 模拟攻击者寻找模型漏洞的安全测试方法 |
| 内容审核 | Content Moderation | 过滤有害、不当内容的机制和技术 |
| 公平性 | Fairness | 模型对不同群体不产生偏见和歧视的性质 |
十一、总结
大模型技术正处于快速发展期,新术语层出不穷。掌握这些核心概念,有助于:
- 理解技术原理:深入阅读论文和技术报告
- 高效沟通交流:与同行、社区准确讨论问题
- 指导工程实践:做出合理的技术选型和架构设计
- 跟踪前沿动态:快速理解新模型、新方法的核心创新
建议收藏本文作为速查手册,遇到陌生术语随时查阅。随着技术演进,部分术语可能会被新的概念取代,保持持续学习是关键。
十二、参考资源
更多推荐


所有评论(0)