什么是大模型的量化和蒸馏?
什么是大模型的量化和蒸馏?通俗版
·
什么是大模型的量化和蒸馏?通俗版
一、模型量化(Quantization)——压缩文件,节省空间
类比:假设你有一张高清照片(10MB),但想传到微信时自动压缩成低画质版本(1MB)。虽然细节变粗糙了,但主要内容还能辨认,而且传输速度更快。
技术本质:将模型参数从高精度(如32位浮点数)转换为低精度(如8位整数),从而减少模型体积、加快计算速度。
数字例子:
- 原始参数:
[0.8732, -1.4529, 2.8917]
(32位浮点数,占12字节) - 量化后:
[87, -145, 289]
(8位整数,占3字节)- 方法:将浮点数乘以100后取整,存储为整数。
- 使用时:将整数除以100还原(
0.87, -1.45, 2.89
),虽然损失了精度,但整体效果接近。
实际效果:模型体积缩小4倍,计算速度提升,但精度轻微下降(如准确率从95%→93%)。
二、知识蒸馏(Knowledge Distillation)——学霸教学渣
类比:一个数学教授(大模型)解题时不仅给出答案,还会写详细步骤;学生(小模型)通过模仿教授的步骤,最终也能独立解题,虽然步骤更简单。
技术本质:让小模型学习大模型的输出概率分布(而不仅是正确答案),从而继承大模型的“知识”。
数字例子:
- 任务:判断一张图片是猫、狗还是鸟。
- 大模型输出概率:
[猫:0.7, 狗:0.2, 鸟:0.1]
(认为可能是猫,但有一丝像狗) - 传统训练:小模型只需学习正确答案是猫(硬标签
[1,0,0]
)。 - 蒸馏训练:小模型学习大模型的概率分布
[0.7, 0.2, 0.1]
,从而知道“狗和猫有些相似”。
实际效果:小模型参数量减少90%,但性能接近大模型(如准确率从大模型95%→小模型93%)。
三、对比总结
技术 | 核心思想 | 优点 | 缺点 |
---|---|---|---|
量化 | 降低数值精度,压缩模型 | 体积小、计算快 | 精度轻微下降 |
知识蒸馏 | 小模型模仿大模型的输出 | 小模型性能接近大模型 | 需要大模型生成训练数据 |
四、实际应用场景
- 量化:手机上的语音助手(如Siri)、嵌入式设备。
- 蒸馏:ChatGPT的轻量版、智能音箱的本地模型。
更多推荐
所有评论(0)