
深度解读DeepSeek架构:原理与效应 2025
生成式AI: 使用生成式模型生成各类数据(语言、语音、图片、视频等)Attention: 数据依存关系建模Transformer: 数据生成的统一架构Scaling Laws: 数据学习、生成的扩展法则RLHF: 生成与人类价值对齐的数据o1/R1: 生成式求解问题——生成问题求解的过程和答案(推理)自然语言处理与语言模型自然语言处理: 人类语言的智能化,简 处理与分析,使计算机具备听、说、 读、
生成式AI: 使用生成式模型生成各类数据(语言、语音、图片、视频等)
Attention: 数据依存关系建模
Transformer: 数据生成的统一架构
Scaling Laws: 数据学习、生成的扩展法则
RLHF: 生成与人类价值对齐的数据
o1/R1: 生成式求解问题——生成问题求解的过程和答案(推理)
自然语言处理与语言模型
自然语言处理: 人类语言的智能化,简 处理与分析,使计算机具备听、说、 读、写、译等人所具备的语言能力
语言模型:自然语言统计建模,简单说,就是预测句子中的下一个单词是什么。
大语言模型:2018——2024
大语言模型:技术栈
大语言模型:生命周期与范式
扩展法则
大语言模型:后训练范式
推理语言模型?
DeepSeek:2023—2025
DeepSeek:技术创新——模型架构 | V2
DeepSeek:技术创新——模型架构| V2
DeepSeek:技术创新——模型架构| V3
DeepSeek:技术创新——模型架构| V3
DeepSeek:技术创新——模型架构| V3成本
DeepSeek:技术创新——创新程度
DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积 累了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等, 这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实 验室,在全世界可能也只有少数几个。
DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提 下,尽可能通过算法挖掘和提升硬件训练和解码效率。
老美采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法绕过了美国的算力护城河。
DeepSeek:技术创新——推理模型| R1
DeepSeek R1主要创新
-
DeepSeek-R1-Zero: 大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻;
-
推理模型训练技术框架: 4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体;
-
强化学习训练框架: GRPO,来自DeepSeekMath,降低了强化学习训练成本;
-
推理模型蒸馏: 将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应);
为什么MCTS+PRM是“误区”
-
The bitter lesson: scalability
-
OpenAI竞争策略
DeepSeek的技术创新体系展现了一条独特的AI发展路径,其核心是通过架构革新与算法突破在算力受限环境下实现高效能突破。以下从技术架构、效率优化、算力突围、推理革新四个维度进行拆解:
一、模型架构的颠覆性重构
稀疏MoE架构的选择标志着与传统Transformer的决裂:
动态路由机制:通过门控网络实现专家模型的动态激活,相比稠密模型降低30%以上计算负载
通信瓶颈突破:独创的All-to-All通信优化算法使千卡级训练效率提升47%,解决MoE架构扩展难题
混合精度革命:FP8训练系统在保持模型精度的同时,内存占用降低40%,训练速度提升2.3倍
二、降本增效的技术闭环
技术创新形成效率飞轮:
MLA(多维注意力优化):重构注意力计算图,单层推理延迟降低18%
MTP(模型张量并行):突破传统模型并行限制,实现92%的硬件利用率
能耗比革命:同等参数量下,单位算力输出效能较行业基准提升4.8倍
三、算力封锁下的突围路径
在A100/H100受限环境下构建新范式:
算法-硬件协同设计:通过计算图优化使3090集群达到A100 80%训练效率
动态稀疏计算:利用激活稀疏性实现有效算力密度提升
跨代际硬件适配:开发异构计算框架,混合多代GPU仍保持85%集群效率
四、推理模型的范式革命
R1系列重塑推理模型技术栈:
RL Scaling Laws:发现强化学习阶段参数效率跃迁点,训练成本降低60%
GRPO框架:将策略梯度方差降低70%,实现小样本强化学习
蒸馏突破:构建多维蒸馏损失函数,使7B模型达到原有13B模型94%推理能力
五、技术路线的战略选择
MCTS+PRM的替代路径:通过动态价值网络替代传统搜索树,内存开销降低两个数量级
可扩展优先原则:所有技术设计预留10倍以上扩展空间,支持千亿级参数动态扩展
OpenAI对标策略:在训练效率、单位算力产出等核心指标建立比较优势
这种技术体系的价值在于构建了算法突破-硬件适应-效率提升的正向循环。例如,FP8训练与MoE架构的结合,使得在同等硬件条件下可训练参数量提升3倍;GRPO框架与蒸馏技术的配合,让中小模型获得近似大模型的推理能力。
这种多维技术叠加效应,实质是在重新定义AI竞赛的规则——从单纯追求算力规模转向算法密度竞争。
当行业陷入"暴力计算"竞赛时,DeepSeek的技术路线展示了另一种可能性:通过架构创新将算法效率提升转化为实质性的代际差优势。
DeepSeek:技术创新——推理模型| R1-Zero
DeepSeek:技术创新——推理模型| R1 Recipe
DeepSeek:技术创新——推理模型| RL
1.强化学习框架GRPO(DeepSeekMath)
采用蒙特卡洛采用估算以取代Value模型,降低 计算和存储开销
2.强化学习奖励模型
采用easily verifiable rewards
-
Accuracy reward
-
Format reward
-
Language-consistency reward
避免过程奖励模型:计算复杂,容易reward hacking
DeepSeek:技术创新——推理模型|推理能力蒸馏
推理模型蒸馏到小模型
-
reasoning能力可以蒸馏到小模型
-
大模型蒸馏到小模型优于小模型直接通过大规模RL训
-
再次验证了模型规模在AGI发展中的重要性
-
推理者同样需要规模支撑
DeepSeek:技术创新——推理模型| R1
DeepSeek:技术创新——推理模型| R1
DeepSeek: 技术创新——创新程度
DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突 破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年 多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、 过程奖励模型(即Search+PRM)实现推理的“误区”。
贡献:
-
独立探索出推理技术路线
-
将技术路线公开发布(解惑了业内的“不知”)o模型开源(MIT License)
DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇 了美国的“AIDominance”。
DeepSeek: 效应
DeepSeek:效应——算力价格战
DeepSeek:效应——开源vs闭源
DeepSeek:效应——认知误区
如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了:
-
美国人对中国AI水平的认知: 长久以来,美国认为中国在AI科技创新上更多是跟随者角色
-
大模型研发成本的认知: 大模型研发成本需要数千万乃至上亿美元
DeepSeek:效应——创新&人才&Vision
DeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要 更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技 术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算 力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此。
技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概 念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不 计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈。
来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现 “人工 智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未 探明方向上的0-1创新。
未来…
AGI Path
科学(研究/发现)范式
DeepSeek R2→Deep Science
AI Safety
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)