详解大模型架构——MLA

DeepSeekV2提出了一种优化MQA的方法：MLA（Multi-head Latent Attention）在推理的过程中，所有的key，value都需要被cache以加速推理，因此MHA需要为每个token缓存。在模型部署时，这种大量的KVcache是一个瓶颈，它限制了最大batch size和序列长度。一般MHA会把QKV分成。

大写的ZDQ

473人浏览 · 2025-02-10 00:16:24

大写的ZDQ · 2025-02-10 00:16:24 发布

参考
https://arxiv.org/pdf/2405.04434
https://blog.csdn.net/bqw18744018044/article/details/138751458
https://zhuanlan.zhihu.com/p/714761319
https://spaces.ac.cn/archives/10091

DeepSeekV2提出了一种优化MQA的方法：MLA（Multi-head Latent Attention）
在这里插入图片描述

在这里插入图片描述

一般MHA会把QKV分成 $nh$ 个头
在这里插入图片描述

在推理的过程中，所有的key，value都需要被cache以加速推理，因此MHA需要为每个token缓存 $2 nh d h l$ .
在模型部署时，这种大量的KVcache是一个瓶颈，它限制了最大batch size和序列长度

在这里插入图片描述

在这里插入图片描述
总结：

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工