CANN/asc-devkit矩阵乘迭代接口

荣宣廷

299人浏览 · 2026-05-19 17:06:36

荣宣廷 · 2026-05-19 17:06:36 发布

Iterate

【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C++标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品 / Atlas A3 推理系列产品	√
Atlas A2 训练系列产品 / Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	√
Atlas 推理系列产品 AI Core	√
Atlas 推理系列产品 Vector Core	x
Atlas 训练系列产品	x
Kirin X90	√
Kirin 9030	√

功能说明

每调用一次Iterate，会计算出一块baseM * baseN的C矩阵。接口内部会维护迭代进度，调用一次后会对A、B矩阵首地址进行偏移。默认以先M轴再N轴的迭代顺序，也可以通过调整tiling参数iterateOrder，转换为先N轴再M轴的迭代顺序。当传入数据未对齐，存在尾块时，会在最后一次迭代输出尾块的计算结果。

一次Iterate矩阵乘的结果C矩阵存放在逻辑位置CO1的内存中，对于CO1内存中计算结果的获取，当前支持如下两种方式：

用户无需自行管理存放矩阵乘结果的CO1内存的申请和释放，由Matmul API内部实现管理。调用接口内部管理CO1的Iterate函数原型后，调用GetTensorC接口完成CO1上计算结果的搬出。
用户可以灵活自主地控制矩阵乘计算结果的搬运，例如将多次Iterate计算的矩阵乘结果缓存在CO1内存中，在需要搬出该结果时，一次性搬出多块baseM * baseN的C矩阵。这种灵活搬运场景下，用户需要提前申请CO1的内存，调用用户自主管理CO1的Iterate函数原型后，一次Iterate的计算结果会输出到用户申请的CO1内存上。在需要搬出计算结果时，调用Fixpipe接口搬运CO1上的结果，完成后释放申请的CO1内存。具体示例请参考用户自主管理CO1的矩阵乘场景。

函数原型

接口内部管理CO1

template <bool sync = true> __aicore__ inline bool Iterate(bool enPartialSum = false)

用户自主管理CO1
```
template <bool sync = true, typename T> __aicore__ inline bool Iterate(bool enPartialSum, const LocalTensor<T>& localCmatrix)
```
- Atlas 推理系列产品AI Core暂不支持用户自主管理CO1。
- Atlas 200I/500 A2 推理产品暂不支持用户自主管理CO1。

参数说明

表 1 模板参数说明

参数名	描述
sync	迭代获取C矩阵分片的过程分为同步和异步两种模式。通过该参数设置同步或者异步模式：同步模式设置为true；异步模式设置为false。默认为同步模式。具体模式的介绍和使用方法请参考GetTensorC。
T	用户申请的CO1内存上LocalTensor的数据类型，即矩阵乘输出的C矩阵的数据类型。当前支持的数据类型为float、int32_t。

表 2 接口内部管理CO1的函数参数说明

参数名	输入/输出	描述
enPartialSum	输入	是否将矩阵乘的结果累加于现有的CO1数据，默认值为false。在L0C累加时，只支持C矩阵规格为singleCoreM==baseM && singleCoreN==baseN。针对 Atlas 200I/500 A2 推理产品，该参数仅支持配置为false。

参数名

输入/输出

描述

enPartialSum

输入

是否将矩阵乘的结果累加于现有的CO1数据，默认值为false。在L0C累加时，只支持C矩阵规格为singleCoreM==baseM && singleCoreN==baseN。

针对 Atlas 200I/500 A2 推理产品，该参数仅支持配置为false。

表 3 用户自主管理CO1的函数参数说明

参数名	输入/输出	描述
enPartialSum	输入	是否将矩阵乘的结果累加于现有的CO1数据。在L0C累加时，只支持C矩阵规格为singleCoreM==baseM && singleCoreN==baseN。
localCmatrix	输出	由用户申请的CO1上的LocalTensor内存，用于存放矩阵乘的计算结果。

返回值说明

false：单核上的所有数据全部算完。

true：数据仍在迭代计算中。

约束说明

当使能MixDualMaster（双主模式）场景时，即模板参数enableMixDualMaster设置为true，不支持使用该接口。
对于用户自主管理CO1的Iterate函数，创建Matmul对象时，必须定义C矩阵的内存逻辑位置为TPosition::CO1、数据排布格式为CubeFormat::NZ、数据类型为float或int32_t。

调用示例

同步模式及异步模式的简单调用示例如下。

// 同步模式样例
while (mm.Iterate()) {   
    mm.GetTensorC(ubCmatrix); 
}

// 异步模式样例
mm.template Iterate<false>();
// …… ……其它计算
for (int i = 0; i < singleM/baseM*singleN/baseN; ++i) {   
    mm.template GetTensorC<false>(ubCmatrix); 
}

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

AI新时代下的图床管理方案-Cloudflare图床+MCP+Skills方案指南

如果你想自己定制专属的图床 MCP 服务器，Cloudflare 官方提供了现成的 Skill，你可以让 AI 帮你一键构建：打开 Claude，输入："帮我构建一个部署在 Cloudflare Workers 上的 MCP 服务器，用来管理我的 R2 图床，需要带 OAuth 认证"Claude 会自动触发官方的Skill，帮你生成服务器代码、配置 OAuth 认证、甚至直接帮你部署到 Clou

MCP技术社区

Vercel Eve开源：每个智能体就是一个文件夹，AI Agent开发迎来新范式

2026年的AI开发圈，真可以用"神仙打架"来形容。就在昨天（6月18日），SpaceX以600亿美元收购了AI编程助手Cursor，创下AI Coding领域最大规模收购案；同一天，Anthropic的新AI设计工具Claude Design首周用户就突破了100万；而Vercel则在6月17日开源了一个名为Eve的AI智能体框架，它的核心理念简单到令人惊讶——每个智能体就是一个文件夹。

MCP技术社区

大模型知识 / 能力四大载体：MCP、RAG、Fine-tuning、Skills 完整区分

相当于 AI 的 USB-C 接口，统一规范模型访问外部资源（工具、数据库、文件、实时 API），是。：封装一套完整任务流程（SOP、函数调用、思考步骤），靠提示词 / 函数描述定义，：外置向量数据库存文档，提问时检索相关片段塞入上下文，：训练更新模型权重，知识永久内化，对应你之前那句。：Anthropic 推出的。