【大模型加速】三分钟速通Flash Attention (flash_attn)安装

HovChen

8611人浏览 · 2025-02-24 17:38:33

HovChen · 2025-02-24 17:38:33 发布

Flash Attention 介绍

FlashAttention 是一种优化的自注意力（Self-Attention）机制，主要用于加速 Transformer 模型的计算，同时降低显存占用。它是由 Tri Dao 等人 在 2022 年提出的，核心思想是通过 块稀疏计算（block-sparse computation）和 I/O 高效优化（I/O-aware optimizations） 来提高计算效率。

Flash Attention 安装

为方便演示，我在AutoDL上新创建了一个实例，配置如下：

这里需要注意的是python、pytorch、cuda的版本，根据这三者的版本，到flash-attention release 中寻找合适的版本。

我的环境为python==3.10 / torch==2.1.2 / cuda 11.8，因此选择下图这个版本（其他版本也可以选）

复制链接，在服务器的终端输入wget + 链接，即可下载到当前目录下。

wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.0/flash_attn-2.5.0+cu118torch2.1cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

在终端输入pip install + 文件名（含后缀），即可安装完成。

pip install flash_attn-2.5.0+cu118torch2.1cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

如果觉得本文对你有用的话，欢迎关注+收藏！

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】