51c大模型~合集16

最近几年受益于巨大的参数规模和海量的训练语料，基于Transformer的大型语言模型（LLMs），如ChatGPT和LLaMA系列，在特定领域知识的生成和复杂推理任务中都表现出色的性能。此外，LLMs的能力随着参数规模的扩大而继续增强，给人们在通往AGI的道路上以无限遐想。然而，巨大的参数规模导致了模型需要巨大的存储和计算需求，这大大限制了LLMs的广泛应用和发展。量化技术通过将32位参数映射

whaosoft-143

1486人浏览 · 2024-11-06 16:56:15

whaosoft-143 · 2024-11-06 16:56:15 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13767556

#FBI-LLM

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

论文一作Liqun Ma目前是MBZUAI机器学习系的博士生，导师为Zhiqiang Shen助理教授，同时也是该论文的最后作者，其在加入MBZUAI之前为CMU博士后，研究领域主要为机器学习，基础大模型等等。Liqun的主要研究方向为高效的大模型预训练和微调，他本科毕业于天津大学。论文二作Mingjie Sun目前为CMU计算机系在读博士，导师为Zico Kolter教授。

自回归训练方式已经成为了大语言模型（LLMs）训练的标准模式，今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文，题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》，该论文首次提出了采用自回归蒸馏的优化方式从头训练二值化的大语言模型，性能可以匹配或者接近FP16或者BF16训练的LLMs，同时效果远超之前所有二值化大语言模型将近十个点。目前该工作的训练代码，数据和模型权重已全部开源。

文：https://arxiv.org/abs/2407.07093
代码：https://github.com/LiqunMa/FBI-LLM

核心结论和贡献

相比之前的二值化大语言模型，这是第一个从头开始训练，不使用任何预训练参数的二值化大语言模型。
训练过程仅仅使用自回归蒸馏损失，没有加入其他损失函数。
该工作是一个全量二值化模型，而不是之前一些方法采用的局部二值化或者三值化大模型。

背景介绍

最近几年受益于巨大的参数规模和海量的训练语料，基于Transformer的大型语言模型（LLMs），如ChatGPT和LLaMA系列，在特定领域知识的生成和复杂推理任务中都表现出色的性能。

此外，LLMs的能力随着参数规模的扩大而继续增强，给人们在通往AGI的道路上以无限遐想。然而，巨大的参数规模导致了模型需要巨大的存储和计算需求，这大大限制了LLMs的广泛应用和发展。量化技术通过将32位参数映射到更小的位数，有效地缓解了这些限制，该技术可以显著减少存储需求，并在推理过程中提升了计算速度和能源效率。

作为量化的极端情况，模型二值化仅用{-1, 1}来表示每个参数。它最大限度地实现了压缩和推理效率，但代价是牺牲一定程度的准确性。以往维持二值化LLMs性能的研究包括如何保留模型中重要参数或使用接近一位（部分二值化或者三值化）的表达方式来表示每个参数。

虽然这些方法展现出了不错的性能和潜力，但它们在存储和效率方面仍有优化的空间，并且额外的全精度参数或采用非2的幂来表示参数编码在适配特定硬件时会产生额外的开销。某些全二值化LLMs的研究基于最小化层级

编辑

损失的优化目标，或使用预训练的全精度LLM在其基础上继续训练，然后用少量训练数据进行二值化模型参数纠正，这些方法面临如下几个问题：

之前某些方法借助预训练的全精度模型参数来减少训练计算量和优化步骤，然而二值化过程会极大地压缩原始模型的参数空间，损害全精度模型中存储的知识，因此依然需要足够的训练数据来让二值化模型重新学习这些知识并适应二值化参数的模式；
从现有预训练模型中衍生二值化模型 (使用预训练权重) 的方案不允许选择不同的参数规模或词汇表大小，从而限制了模型结构的灵活性和实际应用。

本文作者提出了一种从头开始训练的全二值化LLMs（FBI-LLM）。为了实现从头开始稳定地训练二值化LLMs，文章提出了一种基于全精度教师模型的自回归蒸馏的新型训练模式。具体来说，在训练过程中，作者逐步从全精度教师模型中生成蒸馏使用的软标签，并采用基于自回归蒸馏的方案来匹配教师模型在每个token位置的预测概率。

通过这种简单直接的自回归蒸馏损失，可以成功地从随机初始化中训练二值化LLMs。由于该方法相比一般LLM训练的改动主要集中在损失函数上，FBI-LLM可以轻松地融入现有的LLM预训练过程。此外，这种方法中的二值化操作与模型训练是分离的，因此任何增强LLM训练效率或者性能的技术都可以直接应用于本文提出的FBI-LLM。

作者对框架FBI-LLM的有效性进行了详细评估，训练了从130M、1.3B到7B规模的不同模型。作者使用广泛使用的Transformer架构进行LLMs的训练，结果表明从头开始训练全二值化的LLMs是完全可行的，其性能与全精度模型相比只有很小的差距。

与其他基准线方法相比，训练过程在困惑度和多个下游任务上表现更为出色。这些结果表明自回归蒸馏是训练二值化LLMs的关键，此外，通过对预训练更加深入的研究（如权重翻转比和梯度范数）的分析表明，从全精度LLMs继承权重与从头开始训练二值化LLMs之间没有显著差异。

本文的贡献可以总结如下：首先，该论文首次证明可以成功地从头开始训练具有二值权重的LLMs；其次，本文提出了一种新的蒸馏损失函数，以稳定二值化LLMs的训练，其采用自回归蒸馏来匹配教师模型的概率分布；第三，本文进行了广泛的实验和分析，以更好地理解所提出的方法的有效性。

下面介绍一下文章具体细节。

模型结构

编辑

模型结构主要基于LLaMA的结构。如上左图，首先是LLM 模块，其中包含使用可学习的α和β组成的 FBI-Linear层。右图为自回归蒸馏和模型训练相关过程。具体而言，由于在LLM 中，大多数参数都位于线性模块中。FBI-LM 将除causal head以外的所有线性模块替换为 FBI-linear层。由于causal head直接影响每个步骤中的输出token分布，因此对其参数进行二值化将显著影响模型输出的准确性，因此本文选择保留其精度。

此外，LLM 的另外两个核心模块（embedding和Layer Norm）中的参数也需要保持全精确。这是因为embedding模块包含有关所有标记的语义信息，并且作为模型输入的第一层，需要用来确定文本的初始表示形式。另一方面，Layer Norm 直接缩放激活值，二值化其参数将显著降低每层激活值的语义表达能力，之前其他关于LLM二值化的工作和研究也选择采用类似的设置和做法。

模型训练：自回归蒸馏（Autoregressive Distillation）

给定一个训练语料

编辑

，标准的自回归语言模型的目标函数是最大化如下似然函数：

编辑

其中k表示上下文窗口的大小，条件概率p通过参数为θ的神经网络建模。不同于一般的自回归语言模型，本文使用自回归蒸馏训练 FBI-LLM。在训练过程中，一个全精度预训练 LLM 被用作教师模型，二值化目标模型作为学生模型。假设每个训练数据实例由输入token序列x^1,…x^m组成，教师模型对下一个标记的预测概率可以表示为：

编辑

其中

编辑

表示最后一层 transformer 模块的激活，

编辑

表示用于预测下一个token概率的线性输出层的参数。

学生模型与教师模型输出之间的交叉熵被计算为每一步预测下一个token时的最终损失函数。它可以表示为：

编辑

其中n表示输入标记的数量。

编辑

表示教师模型预测的第i步词汇表上的标记分布，而

编辑

是学生模型的相应预测分布。

训练数据

本文使用的训练数据集跟一般的LLM训练相似，包含 Refined-Web 、StarCoder 和 RedPajama-v1的混合数据集，总共包含 1.26T tokens。

实验结果

如下图所示，首先是对现有的二值化 LLM 和 FBI-LLM 在 Wikitext2 的困惑度 (Perplexity) 比较。与其他二值化 LLM 相比，FBI-LLM 在相同规模大小的模型上获得相似或更低的困惑程度。

编辑

其次是在下游任务上的性能表现，如下表所示，由于 130M 大小的FBI-LLM没有对应的基准模型，本文将 130M 模型与之前 700M 规模的 BitNetb1.58 进行比较。尽管模型规模相差五倍，权重量化程度也存在较大的差异，但FBI的模型在 BoolQA 和 OpenbookQA 上的表现仍然优于 BitNet b1.58。

对于 1.3B 规模的二值化模型，FBI-LLM 在大多数下游任务和困惑度中都取得了最佳性能，甚至接近或超过了某些 7B 规模的二值化模型（如 BiLLM-LLaMA2-7B）的性能。与相同规模的全精度模型相比， FBI-LLM 1.3B 在下游任务中可以达到其 87% 的性能。在 7B 规模中，FBI模型依然显著优于之前几乎所有的基准线模型，具体来说，FBI-LLM相比之前最好的方法平均提升了将近十个点。

编辑

此外，由于计算资源的限制，FBI-LLM 7B当前汇报的结果并不是最终结果。作者只使用了整个数据集的 8.6%（31 个块）。下图展示了FBI-LLM-7B训练过程中下游任务准确率和困惑度的变化。显然，从目前的训练进度来看，FBI-LLM-7B的性能将持续提高，更进一步的训练可能会得到更好的效果。

编辑

模型分析和可视化

二值化大模型是从头开始训练还是从预训练的 LLM 接着训练？

直观地说，从预训练的 LLM 继续训练可以让二值化模型从全精度原始模型中继承知识，从而可能比从头开始训练获得更好的结果。为了论证这一假设，本文进行了全面的消融和分析实验，以记录和比较模型在两种不同训练模式下的行为。

从下图 (a) 中可以观察到，在训练初期，两种训练方式的 FF ratio 趋势基本保持一致。在整个训练过程中，两种方法的 FF ratio 都处于相似的大小上，并且数值相对较小。该结果表明，两种不同的参数初始化方法对二值化优化过程的影响没有显著差异。下图 (b) 展示了两种训练模式下的训练损失变化。在训练的初始阶段，两种方法的训练损失基本相同，表明模型的训练损失不会显著受初始化方法的影响。

虽然从头开始训练的损失在中间阶段比继续训练的损失略高，但过一段时间后，从头开始训练的损失再次与接着训练的损失相当，甚至变得比继续训练的损失更为稳定。值得注意的是，在大约第 1000 步时，如图 (a) 所示，当从预训练的 LLM 继续训练时，FF ratio 开始出现明显的波动。同样，在图 (b) 所示的第 1700 步左右，训练损失也遇到了类似的问题。

这些发现挑战了之前相关工作的一些假设，即从预训练的 LLM权重开始训练二值化大模型将赋予二值化LLM继承之前预训练的知识，从而提高性能。然而，本文结果和分析暗示了二值化LLM对参数初始化的方式不敏感，或者说随机参数初始化反而更好。对于原因，本文推测二值化和全精度LLM采用不同的参数组合和配置来编码语义，这导致其参数空间模式存在实质性差异。为了适应这种模式，通过从预训练的 LLM 继续训练来优化二值化的过程可能需要更大幅度的参数数值调整和变换，从而破坏预训练参数模式结构，继而破坏其中保存的知识。这个理论可以部分地解释为什么在训练期间与从头开始训练相比，继续预训练的权重反而让二值化LLM变得更不稳定。

编辑

训练的稳定性分析

二值化和全精度LLM训练在之前一些工作中都被发现表现出不稳定的训练行为。 FBI-LLM 也有类似的问题，具体表现为在训练 1.3B 和 7B FBI-LLM 时训练损失突然激增，有时在此之后继续训练模型也无法收敛。本文采用类似于 PaLM的解决方案：如果损失值不再趋于收敛，模型将恢复到前一个检查点，并跳过触发不稳定损失的数据块以继续训练。使用此方法，模型在相同的训练步骤中不再遇到问题。根据该论文的观察，从头开始训练 7B FBI 模型大约有 6% 的概率导致出现损失峰值。对于 1.3B 模型，由于其模型能力较低，训练更加不稳定，损失峰值的出现概率约为 15%。这与在全精度 LLM 中看到的预训练行为相似，而尖峰的概率明显更高，这可能与二值化参数的有限表达能力有关。为了解决这个问题，FBI跳过了发生损失峰值且没法通过后续训练恢复的数据块。

存储效率分析

编辑

上表显示了不同规模的FBI-LLM与相同结构的全精度LLaMA相比所需的理论存储空间，同时还详细给出了 FBI-LLM 引入的附加参数（α 和 β）的比例。表中的比较表明，FBI-LLM可以实现高压缩比，大大减轻了LLMs的存储负担。尽管 FBI-LLM 引入的用于缩放和移动的额外参数需要保留全精确，但它们的比例相比整个模型很小，因此其对存储的影响可以忽略不计。

生成结果示例

编辑

如上图所示，尽管 FBI-LLM 的生成质量无法完全匹配全精度 LLM模型，但 FBI-LLM 仍然可以生成流畅且有意义的内容。与具有更高参数位宽的BitNet b1.58模型相比，FBI-LLM对提示的理解更好，并且在一些生成的示例中包含了更多的知识。这表明FBI-LLMs具有更强的生成能力，并包含足够的知识。此外，FBI-LLM展示了进一步扩大模型规模从而达到更高智力水平的二值化模型的潜力，这种类型的大模型 (二值化大模型) 对部署的硬件需求也更加友好。

模型配置和训练细节

具体的模型配置和训练细节如下所示：

编辑

更多细节欢迎阅读文论原文。

#英特尔13/14代酷睿桌面CPU崩溃后续

损坏不可逆？不会召回

真就要「AMD Yes」了。

最近一段时间，部分使用英特尔第 13/14 代酷睿台式机处理器的游戏玩家遇到了一些麻烦。他们反馈称，这些处理器在运行虚拟引擎（Unreal Engine）游戏时会出现崩溃。

比如使用了虚拟引擎 5.3 的《泰坦之路》（Path of Titans），它的开发商 Alderon Games 提供了弹出窗口，以警告可能的游戏崩溃。从下图可以看到，游戏由于英特尔酷睿 i7 13700K 处理器而意外终止。

这并不是这些处理器第一次出现问题。澳大利亚游戏视觉特效工作室 ModelFarm 内部人员报告称，英特尔酷睿 i9 13900K 和 14900K 故障率达到了 50％左右，因此考虑改用 AMD 锐龙 9 9950X，以实现稳定的生产环境。

几天前，英特尔针对第 13/14 代酷睿处理器的使用反馈发表了一项声明，指出不稳定主要是由运行电压过高导致。

通过对因不稳定问题而退回的英特尔第 13/14 代酷睿台式机处理器的分析，我们确定：过高的运行电压导致部分第 13/14 代台式机处理器出现不稳定问题。过高的运行电压源于微代码算法，导致向处理器发送了错误的电压请求。

英特尔将提供一个微代码补丁，来修复电压过高的问题。我们还将继续验证，以确保解决第 13/14 代酷睿台式机处理器的不稳定情况。我们目前计划在 8 月中旬完成全面验证后，向合作伙伴发送此补丁。

英特尔致力于为客户解决这个问题。任何目前在第 13/14 代酷睿台式机处理器上遇到不稳定问题的客户，都可以获得进一步的帮助。

不过昨日，外媒 The Verge 称，如果用户的第 13/14 代酷睿处理器已经崩溃，英特尔提供的补丁显然无法修复它，损坏是永久的。

另一家外媒 Tom’s Hardware 援引不愿透露姓名的知情人士的说法，英特尔相关处理器的任何性能下降都是不可逆的。

当 The Verge 向英特尔发言人验证这一说法时，并没有得到否认。他们表示补丁将从一开始就能阻止这种情况发生。但是，如果出现问题的 CPU 已经损坏，最好的选择是更换它，而不是调整 BIOS 设置来尝试缓解这些问题。

此外，电压过高不是部分芯片出现故障的唯一原因。英特尔社区经理 Lex Hoyos 透露称，一些不稳定报告可以追溯到去年出现的氧化制造问题，该问题没有指定修复日期。

这就让用户格外关心后续的一些补救措施，比如英特尔会召回这些芯片吗？是否会影响移动笔记本 CPU 呢？The Verge 就这些问题向英特尔征询答案。

英特尔表示，他们既不会对相关处理器进行召回，也不会在验证更新期间停止销售，但声称会对用户提供「必要的支持」。此外，受到影响的不仅仅是 13/14 代 K 系列，还可能影响默认 65W TDP 的非 K 版本。

英特尔还将继续分析，以确保移动笔记本 CPU 不会出现 13/14 代桌面处理器相同的不稳定问题。

最后，英特尔对 The Verge 表示，用户无需担心无形的性能衰减。如果用户目前没有遇到相关问题，那么 8 月中旬提供的补丁也会对使用中的相关处理器起到有效的预防作用。

参考链接：

https://www.theverge.com/2024/7/26/24206529/intel-13th-14th-gen-crashing-instability-cpu-voltage-q-a

https://www.tomshardware.com/pc-components/cpus/intel-finally-announces-a-solution-for-cpu-crashing-errors-claims-elevated-voltages-are-the-root-cause-fix-coming-by-mid-august

https://en.gamegpu.com/iron/path-of-titans-vvodit-preduprezhdenie-o-problemnykh-protsessorakh-intel-13-go-i-14-go-pokolenij

#AI在数学竞赛中展现「超凡智慧」

陶哲轩点评谷歌AlphaProof, 人工智能在数学推理中不断前进。

在奥数问题面前，AI 的「智商」往往不太够用。

不过，这已经是过去式了。谷歌 DeepMind 用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题，并且距拿金牌仅一步之遥。对于 AI 来说，奥数不再是问题了。

IMO 2024 中六个问题的每一个问题满分为 7 分，总分最高 42 分。DeepMind 的系统最终得分为 28 分，意味着解决的 4 个问题都获得了满分 —— 相当于银牌类别的最高分。

DeepMind 文章连接：https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

常用 AI 辅助证明的数学家陶哲轩近期正处在出差的忙碌中，对问题求解引擎 AlphaProof 和 AlphaGeometry2 还未完全消化。但他在自己的博客上对 DeepMind 的 AI 系统参加 IMO 竞赛这件事表达了自己的看法。

陶哲轩谈到，这是一项非常伟大的工作，再次改变了我们对哪些基准挑战可以通过 AI 辅助或完全自主的方法实现的期望。

例如，IMO 级别的几何问题现在对于专用的 AI 工具来说已基本解决。现在看来，通过强化学习过程可以找到形式化证明的 IMO 问题至少在某种程度上可以被 AI 攻克。虽然目前每个问题需要相当大的计算量，并且在形式化方面需要人类的帮助。

在陶哲轩看来，这种方法还有一些「buff 加成」，它能使形式化数学更容易自动化，这反过来可能会促进包含形式化成分的数学研究方法。如果更公开地共享由此产生的形式证明数据库，它可能是一个有用的资源。

这种方法（更多地基于强化学习而非大型语言模型，有点类似 AlphaGo 的精神，且强调整体方法）非常聪明，事后来看很有道理。正如「AI 效应」所言，一旦解释清楚，它不会给人一种展示人类智能的感觉；但它仍然是我们 AI 辅助问题解决工具集能力的扩展。

「AI 效应」是指当人工智能技术取得进展或解决问题时，人们往往会认为这些成就并不是真正的人工智能或者不具备真正的智能。换句话说，一旦某项技术被理解或普及，它就不再被认为是智能的。这种现象表明，人们对 “智能” 的定义和期望会随着技术的进步而不断提高。

本月月初，陶哲轩在自己的博客中发布 AI 数学奥林匹克竞赛（AIMO 进步奖）的初步成绩已公布的消息。其中，获得第一名的是 Numina 的团队。

他在最新博客中表示，DeepMind 的这些新工具无法与最近赢得 AIMO 进步奖的 NuminaMath 模型直接比较。NuminaMath 模型完全自动化且资源效率高出数个数量级，并且采用了完全不同的方法（使用大型语言模型生成 Python 代码，以蛮力解决区域竞赛级别的数值答案问题）。这个模型也是完全开源的。这也是非常不错的工作，展示了尝试使用 AI 来辅助或自动化数学问题解决过程的不同部分的多维挑战。

其实 DeepMind 在数学推理方面有着不懈的努力。在今年年初，它的人工智能算法就已经在数学奥林匹克竞赛（IMO）上取得了重大成绩突破。论文《Solving olympiad geometry without human demonstrations》向世人介绍了 AlphaGeometry，还登上了国际权威期刊《自然》杂志。专家表示，这是人工智能朝着具有人类推理能力方向迈进的重要一步。

论文链接：https://www.nature.com/articles/s41586-023-06747-5

未来 DeepMind 还将带给我们怎样的惊喜，我们拭目以待。

参考链接：

https://mathstodon.xyz/@tao/112850716240504978

#DeRTa

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

论文的第一作者是香港中文大学（深圳）数据科学学院二年级博士生袁尤良，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺品嘉团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。

大型语言模型（LLM）展现出了令人印象深刻的智能水平。因此，确保其安全性显得至关重要。已有研究提出了各种策略，以使 LLM 与人类伦理道德对齐。然而，当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击，并被用于恶意用途。

为什么哪怕经过了大量的安全对齐，这些模型依然容易被越狱？应该如何进一步把安全对齐做深（deep）？

围绕这两个问题，香港中文大学（深圳）贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa)，一个简单新颖的安全微调方法，可以赋予大语言模型「迷途知返」的能力，从而在不影响模型有用性（helpfulness）的同时，大幅提升其安全性（safety）。

论文标题：Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
论文地址：https://arxiv.org/abs/2407.09121
开源代码：https://github.com/RobustNLP/DeRTa

研究者发现，安全微调数据中存在拒绝位置偏差（refusal position bias），即模型表示拒绝回答的行为，总是出现在回复的开头，这可能阻碍了模型在后续位置处保持安全的能力。为了验证这一猜测，研究者使用越狱样本测试 LLaMA3-8B 和 LLaMA3-70B，结果显示几乎所有（99.5%）被模型成功拒绝的越狱样本，拒绝性单词（如 Sorry）都出现在前五个单词中。一旦开头没有被拒绝，模型将很难在后续位置表现出安全的行为。

方法

为了解决这一问题，该论文提出了解耦拒绝训练（DeRTa）。DeRTa 包括两个新颖的设计：

带有有害前缀的最大似然估计（MLE）：将一段随机长度的有害回复（harmful response）添加到安全回复的开头，可以训练 LLMs 在任何位置拒绝回复，而不仅仅是在开始处。此外，添加有害前缀提供了额外的上下文，显著提高了 LLM 识别和避免不安全内容的能力。
强化过渡优化（RTO）：虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态，但每个训练样本仅提供单次过渡，可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题，研究者引入了一个辅助训练目标 RTO，让模型在有害序列的任意位置，都预测下一个单词为「Sorry」，从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。

编辑

上述设计确保了模型防御机制的全面增强，允许模型学会「迷途知返」的行为。

该方法的设计，在推特上也引起了一定的讨论。

编辑

主要实验

为了验证方法的效果，研究者在两个知名的模型家族 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验，涵盖六种不同的越狱攻击方式。结果显示：

DeRTa 显著提升了安全性，同时不会降低有用性。
DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。

编辑

分析实验

为了提供更多有价值的见解，研究者主要基于 LLaMA3-70B，对 DeRTa 的工作原理进行了更细致的分析，包括：

1. 案例研究，DeRTa 如何影响拒绝性单词位置分布

2. 消融实验，DeRTa 中两种策略的作用大小

3. 分析实验一，与 DPO 进行比较，探究训练数据中的有害回复所发挥的作用

4. 分析实验二，DeRTa 在不同模型尺寸的适用性

首先，论文给出的示例具体地展示了 DeRTa 模型的「迷途知返」能力：即使在已经输出了一部分不安全文本的情况下，模型也能有效过渡到安全状态。此外，作者给出了在不同的方法下，模型输出的拒绝性单词的位置分布。可以看出，使用了 RTO 的模型，可以在显著靠后的位置，仍然具有保持安全的能力。

编辑

在消融实验中，实验结果显示，仅仅使用有害前缀策略不足以应对各种形式的攻击。例如，该策略对于防御 CodeAttack 这类较为复杂的攻击几乎没有帮助。该攻击通过让模型补全代码来越狱，模型在前面位置的回复中，会进行无恶意的代码补全，到一定位置处，模型将会开始一边补全代码一边生成恶意回复。

对于有害前缀策略的这些不足，RTO 可以有效弥补，从而使模型展现出很高的安全性，这说明 RTO 对于加强（赋予）模型在任何位置拒绝的能力至关重要。

编辑

RTO 的成功很自然带来一个问题：模型安全性的提升，是否可以归功于训练中整合了有害回复，而不是建模了 token 级别的安全过渡？为了回答这一问题，作者将 DeRTa 与 DPO 进行了比较。该实验进一步验证了，DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息，而是得益于其对 token 级别安全过渡的直接建模。

编辑

此外，该论文也展示了在不同尺寸的模型上的表现，包括 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B)，结果显示该方法对不同大小的模型均有很好的效果。

结语

大模型安全依然任重道远。如何突破表面对齐，将安全做深入是一件很有挑战的事情。研究者在此给出了一些探索和思考，希望可以为这一方面的研究，提供一些有价值的见解和基线方法。

#达摩院气象大模型成功通关

这个夏天，天气版「山东卷」考验电网

2024 年是极端天气事件高发的一年。

3 月，江西南昌持续遭遇强对流天气，大树被连根拔起，民宅玻璃被吹落；9 月，上海的小伙伴在一周之内迎来了两次台风，高呼「活久见」。十一假期之前，内蒙古呼伦贝尔突降暴雪，前去「赏秋」的游客被打得措手不及。

编辑

而且，Nature 子刊的一篇文章显示，在未来的 20 年，这种极端天气有迅速加强的趋势。

编辑

其实，对「风云突变」的威力，有些行业早就深有感受，甚至是深受其苦。电网就是这样一个场景。无论是从发电端还是用电端来看，天气的剧烈变化都会直接影响电力供需平衡，给电网运行带来意想不到的挑战。

好在，AI 正在上岗天气预报员，带给电力系统高频更新的专属天气预报。

在国网山东电力调控中心，一个名叫「八观」的气象大模型已经运行了好几个月，以每小时公里级的精准度成功预测了多次极端天气，帮助电网平稳度过了一个「旱涝急转」的夏天。

从数据来看，它的准确率明显高于基线系统。

编辑

这位优秀的 AI 天气预报员是什么来头？在 11 月 6 日北京举行的达摩院决策智能产品发布会上，相关谜底被揭开。

当电网遭遇「风云突变」

今天夏天，家住山东的朋友或许都感受到了天气的反常：先是高温持续、旱情严峻；紧接着旱涝急转、暴雨频发。

我们想象一下小学应用数学题里一边注水一边放水的泳池。电网就像这个泳池，一边在发电，一边在用电，而且「水位」要始终保持平衡。

但天气一变，平静的「水面」要不起波澜就难了。

先说用电侧。最直观的，下雨前天气闷热，更多的居民会选择开空调。温度每升高一度，对应的用电量，专业上叫做「负荷」就会相应增加。但如果雨下下来，天气一凉爽，用电负荷就会骤降。

编辑

偏偏今年夏天山东降雨特别多，是有数据统计以来第二多的。8 月 25 日至 28 日，山东的气温就因为降水出现大幅度波动，电网负荷总量在 3 日之内下降了 20%。

要知道，电网在高负荷状态下需要维持充足的电力供应以避免停电风险，而突如其来的需求减少可能导致电力过剩，引发电压不稳定、频率波动等问题。

再说发电侧。和传统的火力发电不同，风电、光伏「看天吃饭」，发电功率随天气变化而波动。尤其这类新能源发电装置多是分布式的，受区域天气影响很大。新能源装机、并网规模不断攀升，给电网注入了更多随机性、波动性和间歇性因素。

这样一来，天气一变，电网就会两头承压。要是来不及制定合理的调度策略，牵一发而动全身，就有可能调度失衡。

据统计，我国新能源装机占比已经超过 40%。要保证大规模的分布式光伏和风电安全稳定地接入电网，高频、高精度的区域天气预报变得尤为关键。

编辑

「八观」气象大模型的落地之路

运行在国网山东电力调控中心的「八观」是由阿里巴巴达摩院决策智能实验室开发的一个气象大模型。这也是八观上岗的第一份「工作」。根据这份工作的需求，它不仅需要提供天气预报，更要帮助电力系统在气象数据基础上，提供新能源发电功率预测和用电负荷预测。为此，八观进行了多个方面的技术创新。

编辑

首先，它采取了「全球 - 区域」协同的预测策略，在模型层面和数据层面取长补短。

在「八观」之前，很多研究机构都基于欧洲气象局的 ERA5 再分析数据训练，推出了所谓的「全球气象大模型」。但全球气象大模型距离真正的落地还存在 gap。

ERA5 的数据质量很高，但时空分辨率只有 0.25（25 公里 X25 公里的网格），无法满足包括电力系统在内的很多行业用户的实际需求。

为此，达摩院训练了两个气象大模型 —— 一个全球大模型和一个区域大模型。全球大模型作为底座模型，学习大气运动在时空上的宏观规律，区域大模型则纳入了包括场站数据、气象实况、开源卫星图像、开源地形在内的多源多模态数据。这些数据与描述天气特征的物理模型约束相互融合，共同对次网格尺度的局部微气象过程进行精细化建模。

具体来说，达摩院研发人员通过对不同空间分辨率但对应相同实际地域的各种数据嵌入表征的对齐，让全球模型表征和区域模型表征在各层中相互交互，将其预测精度最高提升至 1 公里 * 1 公里 * 1 小时。

编辑

另一个创新点体现在架构的选择上。

在气象大模型架构方面，不同于 Swin Transformer、GNN 等架构，达摩院率先采用孪生掩码自编码器（MAE）。此类架构的原理是随机掩盖输入数据，然后训练 AI 去重建这些被掩盖的部分。比如，可在时间上取 2 个点（6 小时前和 6 小时后），在空间上将地球划分为多个小区域，掩盖（mask）一些区域。模型通过学习 6 小时前的气象数据和 6 个小时后没有被掩盖的区域来重建 6 小时后的掩盖区域，从而学习隐藏在高波动的天气数据下的鲁棒特征表示，实现对天气的精准把握。

这种架构不仅能为天气预报提供可靠的基础模型，还能支持更长时段的次季节（42 天）预测，而且能够充分考虑更多的数据（如海洋数据）。

编辑

最后，「八观」还对风速、辐照度等新能源重点指标进行了优化。

在这些技术创新的加持下，「八观」气象大模型在山东经受住了考验，在前面提到的 8 月 25 日至 8 月 28 日的剧烈变化中，将下游新能源发电功率、电力负荷预测准确率分别提升至 96.5% 和 98.1%，有效帮助电力系统作出及时、准确的调度决策。

相比起传统的数值天气预报计算量庞大，需要配置机房，AI 气象大模型部署便捷，可快速推广。

据介绍，在地处大江畔的另一光伏和风电重点发展地区，八观也交出了一份优秀的答卷，将分布式光伏功率预测月平均准确率提升了 1.4%，风电功率预测月平均准确率提升了 5.5% 。

编辑

达摩院决策智能实验室：不止研究 AI

自古以来，预测天气一直是一项充满挑战的任务。我们的祖先细致地观察自然界的种种迹象，例如云彩的形态与色泽、风的来向与力度、动物的行为习性、植物的生长态势等，试图破译天气变化。

进入现代，人们开始进行气象学与物理学、数学、计算机科学等学科的交叉研究，任何一个单独的学科都无法担此重任。

「八观」气象大模型背后的达摩院决策智能实验室就是这样一支具有很强学科交叉背景的团队，更结合了对产业的深刻理解。

在过去的几年里，他们在时序预测等方面积累了丰富的经验，构建了包括时序预测、时序异常检测以及对应原子算法的完整时序数据分析框架，近 3 年来，在 AI 顶级会议和期刊上发表 30 多篇论文。他们用 AI 预测新能源发电功率的成果，也在今年入选了联合国 AI for Good（人工智能向善）案例集。

未来，八观将持续向着「更懂产业的气象预报」这一目标发力。团队还计划将模型的应用范围扩展到民航、体育赛事、农业等多个领域，与这些领域共同迎战风云变幻。

参考链接：

https://www.chinawater.com.cn/df/sd/202410/t20241010_1057216.html

#英特尔在数据中心市场输给了AMD

史上第一次

然而两家都远远落后于英伟达。

在消费级芯片市场形势逆转之前，服务器芯片的市场已经先喊出 AMD yes 了。

史上第一次，AMD 从数据中心处理器市场中获得的利润超越了英特尔。

近二十多年来，英特尔一直是数据中心 CPU 市场无可争议的领导者，其提供的 Xeon 处理器为全世界大多数的服务器提供动力。另一方面，仅在七八年前，AMD 的处理器还只能占据个位数的市场份额。

如今情况已发生了巨大变化。虽然英特尔的 Xeon CPU 仍然为大多数服务器提供动力，但越来越多的新服务器，特别是高端设备已经趋向于选用 AMD 的 EPYC 处理器。正如近日独立研究机构 SemiAnalysis 所指出的，AMD 的数据中心业务部门现在的销量已经超过了英特尔的数据中心和 AI 业务。

编辑

上周四，各家美国科技公司陆续发布三季度财报，AMD 报告其数据中心收入增长 122%，游戏收入下降 69%。公司 2024 年第三季度营业额为 68 亿美元，同比增长 18%。其中，AMD 的数据中心部门收入在第三季度达到 35.49 亿美元，这显示出 AMD 在半导体市场的竞争力不断提升，能够持续扩大业务规模并获得更多的市场份额。

而英特尔在第三季度的产品总收入为 122 亿美元，同比减少 2％，其中至强处理器、Gaudi 加速器为主的数据中心和 AI 集团的收益在本季度为 33 亿美元，同比增长 9％。就在两年前，英特尔的 DCAI 集团每季度的收入为 50 亿至 60 亿美元。

在新一代产品中，AMD 的 EPYC 处理器相对于英特尔的 Xeon CPU 取得了竞争优势，英特尔不得不以大幅折扣出售其服务器芯片，这降低了该公司的收入和利润率。

今年 9 月，英特尔推出了新一代旗舰产品 128 核的 Xeon 6980P「Granite Rapids」处理器，售价高达 17800 美元，是该公司有史以来最昂贵的标准 CPU（也是最贵的 X86 CPU）。

编辑

Xeon 6980P 拥有 128 个高性能内核和 256 个线程，时钟速度为 2.0 GHz，L3 缓存为 504MB。

相比之下，AMD 最昂贵的 96 核 EPYC 6979P 处理器售价为 11805 美元。

从历史上看，英特尔的处理器定价并没有像 AMD 的多线程版本那样高。这一转变可能表明英特尔采取了新的定价策略，力图将自己定位为高端选择，但这也可能是制造新一代 CPU 生产流程的高成本所致。

外媒 tomsHardware 认为，如果市场对英特尔 Xeon 6900 系列处理器的需求仍然很高，并且该公司能够大量供应这些 CPU，那么英特尔的数据中心收入可能会重回正轨，并超过 AMD 的数据中心销售额。然而，英特尔仍然需要提高其 Granite Rapids 产品的产量。

最后，英特尔和 AMD 的竞争之上，还有一个英伟达。

虽然英特尔和 AMD 现在每季度通过销售数据中心 CPU 赚取约 30-35 亿美元，但英伟达从其数据中心 GPU 和网络芯片中赚取的收入比这两家要高得多，英伟达提供的芯片是使 AI 处理器（GPU）在数据中心协同工作所必需的。

事实上，在 2025 财年第二季度，英伟达网络产品的销售额总计 36.68 亿美元，这还是在英伟达在 InfiniBand 网络市场逐渐减速的情况下实现的。

与此同时，英伟达计算 GPU 的销售额在 2025 财年第二季度达到了 226.04 亿美元，远远超过英特尔和 AMD 数据中心硬件的总销售额。总体而言，英伟达在今年上半年销售了价值近 420 亿美元的 AI 和 HPC GPU，下半年的销售额很可能会更高。

参考内容：

https://www.tomshardware.com/pc-components/cpus/for-the-first-time-ever-amd-outsells-intel-in-the-datacenter-space

https://x.com/SKundojjala/status/1853041284157682063

#Hunyuan-Large

腾讯混元又来开源，一出手就是最大MoE大模型

随着人工智能技术的快速发展，大型语言模型（LLMs）在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而，随着模型规模的扩大，如何在保持高性能的同时优化资源消耗成为关键挑战。为了应对这一挑战，腾讯混元团队率先采用混合专家（MoE）模型架构，最新发布的 Hunyuan-Large（Hunyuan-MoE-A52B）模型，是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 389B 总参数和 52B 激活参数。

本次腾讯混元 - Large 共计开源三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8，可支持企业及开发者精调、部署等不同场景的使用需求，可在 HuggingFace、Github 等技术社区直接下载，免费可商用。通过技术优化，腾讯混元 Large 适配开源框架的精调和部署，具有较强的实用性。腾讯云 TI 平台和高性能应用服务 HAI 也同步开放接入，为模型的精调、API 调用及私有化部署提供一站式服务。

开源官网：https://llm.hunyuan.tencent.com/
github（开源模型工具包）：https://github.com/Tencent/Hunyuan-Large
huggingface（模型下载）：https://huggingface.co/tencent/Hunyuan-Large/tree/main
huggingface demo 地址：https://huggingface.co/spaces/tencent/Hunyuan-Large
技术报告：https://arxiv.org/abs/2411.02265

Hunyuan-Large 整体模型效果

公开测评结果显示，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

编辑

技术创新点

MoE (Mixture of Experts)，也即混合专家模型，MoE 模型的每一层都包含多个并行的同构专家，一次 token 的前向计算只会激活部分专家。MoE 模型的每一层会采用路由算法，决定了 token 会被哪些专家处理。MoE 是一种稀疏的网络结构，具有比激活总参数量同等大小稠密模型更优越的性能，而推理成本却远低于总参数量相同的稠密模型。

得益于 MoE (Mixture of Experts) 结构的优越性，混元 Large 可以在保证模型推理速度的同时，显著提升模型的参数量进而提升模型性能。

1、路由和训练策略

共享专家路由策略

腾讯混元 Large 的专家层中，设置一个共享专家来捕获所有 token 所需的共同知识，还设置了 16 个需要路由的专家，模型将每个 token 路由给其激活得分最高的专家来动态学习特定领域的知识，并通过随机补偿的路由保障训练稳定性。共享专家负责处理共享的通用能力和知识，特殊专家负责处理任务相关的特殊能力，动态激活的专家，利用稀疏的神经网络来高效率的进行推理。

回收路由策略

路由策略，即把 token 分发给 MoE 中各个专家的策略，是 MoE 模型中至关重要的部分。好的路由策略可以有效地激活每个专家的能力，使得每个专家保持相对均衡的负载，同时提升模型的训练稳定性和收敛速度。业界常用的路由策略是 Top-K 路由，也就是将各个 token 按照其和专家的激活得分路由给各个专家。但是这种路由方式难以保障 token 在各个专家间平均分配，而那些超过专家负载的 token 则会被直接扔掉，不参与专家层的计算。这样会导致部分处理 token 较少的专家训练不稳定。

针对这一问题，腾讯混元 Large 在传统 Top-K 路由的基础上进一步提出了随机补偿的路由方式。

编辑

专家特定学习率适配策略

在 Hunyuan-A52B 中，共享专家和路由专家在每个迭代里面专家处理的 token 数有很大差异，这将导致每个专家实际的 batchsize 并不相同（共享专家的 batchsize 是其他专家的 16 倍），根据学习率与 Batch size 的缩放原则，为不同（共享 / 特殊）专家适配不同的最佳学习率，以提高模型的训练效率。

编辑

高质量的合成数据

大语言模型的成功与高质量的训练数据密不可分。公开网页数据通常质量参差不齐，高质量通常难以获取；在天然文本语料库的基础上，腾讯混元团队在天然文本语料库的基础上，利用混元内部系列大语言模型，构建大量的高质量、多样性、高难度合成数据，并通过模型驱动的自动化方法评价、筛选和持续维护数据质量，形成一条完整数据获取、筛选、优化、质检和合成的自动化数据链路。

编辑

在数学领域，网页数据中很难找到大量优质的思维链 (CoT) 数据。腾讯混元 Large 从网页中挖掘构建大规模题库，并利用它作为种子来合成数学问答，从而保证了多样性；同时我们利用一致性模型和评价模型来维护数据的质量，从而得到大量优质且多样的数学数据。通过加入数学合成数据显著提高了模型的数学能力。

在代码领域中，自然代码很多质量较差，而且包含类似代码解释的代码 - 文本映射的数据很稀缺。因此，腾讯混元 Large 使用大量天然代码库中的代码片段作为种子，合成了大量包含丰富的文本 - 代码映射的高质量代码训练数据，加入后大幅提升了模型的代码生成能力。

针对通用网页中低资源、高教育价值的数据，腾讯混元 Large 使用合成的方式对数据做变换、增广，构建了大量且多样的、不同形式、不同风格、高质量的合成数据，提升了模型通用领域的效果。

2、长文能力优化

采用高效的超长文 Attention 训练和退火策略。通过将长文和正常文本混合训练，逐步多阶段引入自动化构建的海量长文合成数据，每阶段仅需少量长文数据，即可获得较好的模型长文泛化和外推能力。

编辑

腾讯混元 Large 模型专项提升的长文能力已经应用到腾讯 AI 助手腾讯元宝上，最大支持 256K 上下文，相当于一本《三国演义》或英文原版的《哈利・波特》全集的长度，可以一次性处理上传最多 10 个文档，并能够一次性解析多个微信公众号链接、网址，让腾讯元宝具备独有的深度解析能力。

3、推理加速优化

随着 LLM 处理序列逐渐增长，Key-Value Cache 占用内存过大的问题日益突出，为推理成本和速度带来了挑战。

为了提高推理效率，腾讯混元团队使用 Grouped-Query Attention（GQA）和 Cross-Layer Attention （CLA) 两种策略，对 KV Cache 进行了压缩。同时引入量化技术，进一步提升压缩比。

编辑

通过 GQA+CLA 的引入，我们将 Hunyuan-A52B 模型的 head 数从 80 压缩到 8，并通过 CLA 每两层共用 KV 激活值，最终将模型的 KV Cache 压缩为 MHA 的 5%，大幅提升推理性能。下面是不同策略的 KV Cache 对比。

编辑

4、Postrain 优化

SFT 训练

腾讯混元团队在预训练模型的基础上使用超过百万量级的 SFT 数据进行精调训练，这些精调数据包含了数学、代码、逻辑、文本创作、文本理解、知识问答、角色扮演、工具使用等多种类别。为了保证进入 SFT 训练的数据质量，我们构建了一套完整的基于规则和模型判别的数据质检 Pipeline，用于发现数据中常见的 markdown 格式错误、数据截断、数据重复、数据乱码问题。此外，为了自动化地从大规模指令数据中筛选高质量的 SFT 数据，我们基于 Hunyuan-70B 模型训练了一个 Critique 模型，该模型可以对指令数据进行 4 档打分，一方面可以自动化过滤低质数据，另一方面在自进化迭代过程中可以有效提升被选 response 的质量。

我们使用 32k 长度进行 SFT 训练，另外在训练过程中为了防止过拟合，我们开启了 0.1 的 attention dropout 和 0.2 的 hidden dropout；我们发现相比 Dense 模型，MoE 架构的模型通过开启合理的 dropout，能有效提升下游任务评测的效果。另外为了更高效的利用大规模指令数据，我们对指令数据进行了质量分级，通过从粗到精的分阶段训练，有效提升了模型效果。

RLHF 训练

为了使模型能够生成与人类偏好接近的回答，我们进一步使用直接偏好优化（DPO）对齐算法对 SFT 模型进行强化训练。与离线 DPO 算法不同的是，我们在强化学习二阶段采用的是在线强化 pipeline，这一框架里集成了使用固定 pair 数据的离线 DPO 策略，和使用训练过程中更新的策略模型迭代式采样的在线强化策略。具体来说，每一轮模型只使用少量数据进行采样训练，训练完一轮之后的模型会对新的一批数据采样出多个回答，然后利用奖励模型（RM）打分，排序出最好的回答和最差的回答来构建偏好对。

为了进一步增强强化学习阶段的训练稳定性，我们随机筛选了一定比例的SFT数据用于计算 sft loss，由于这部分数据在 SFT 阶段已经学过，DPO 阶段加 sft loss 是为了保持模型的语言能力，且系数较小。此外，为了提升 dpo pair 数据里面的好答案的生成概率，防止 DPO 通过同时降低好坏答案的概率的方式来走捷径，我们也考虑加入好答案的 chosen loss 。通过以上策略的有效结合，我们的模型在 RLHF 训练后各项效果得到了明显的提升。

编辑

5、训练和精调

腾讯混元 Large 模型由腾讯全链路自研，其训练和推理均基于腾讯 Angel 机器学习平台。

针对 MoE 模型 All2all 通信效率问题，Angel 训练加速框架（AngelPTM）实现了 Expert 计算和通信层次 overlap 优化、MOE 算子融合优化以及低精度训练优化等，性能是 DeepSpeed 开源框架的 2.6 倍。

腾讯混元 Large 模型配套开源的 Angel 推理加速框架（AngelHCF-vLLM）由腾讯 Angel 机器学习平台和腾讯云智能联合研发。在 vLLM 开源框架的基础上适配了混元 Large 模型，持续通过叠加 NF4 和 FP8 的量化以及并行解码优化，在最大限度保障精度的条件下，节省 50% 以上显存，相比于 BF16 吞吐提升 1 倍以上。除此之外，Angel 推理加速框架也支持 TensorRT-LLM backend，推理性能在当前基础上进一步提升 30%，目前已在腾讯内部广泛使用，也会在近期推出对应的开源版本。

#A Systematic Survey on Large Language Models for Algorithm Design

调研180多篇论文，这篇综述终于把大模型做算法设计理清了

本文第一作者柳斐（https://feiliu36.github.io/ ）是香港城市大学计算机科学系博士生，师从张青富教授。研究领域为计算智能，自动算法设计，组合优化等。姚一鸣，郭平，杨致远，赵哲和林熙来自香港城市大学张青富教授团队。陆智超为香港城市大学计算机科学系助理教授。王振坤为南方科技大学系统设计与智能制造学院助理教授。童夏良和袁明轩来自华为诺亚方舟实验室。

论文标题：A Systematic Survey on Large Language Models for Algorithm Design
论文地址：https://arxiv.org/abs/2410.14716

算法设计（AD）对于各个领域的问题求解至关重要。大语言模型（LLMs）的出现显著增强了算法设计的自动化和创新，提供了新的视角和有效的解决方案。在过去的三年里，LLMs 被整合到 AD（LLM4AD）中取得了显著进展，在优化、机器学习、数学推理和科学发现等各个领域获得广泛研究和应用。鉴于这一领域的快速发展和广泛应用，进行系统性的回顾和总结既及时又必要。本文对 LLM4AD 的研究进行了系统性回顾。首先，我们概述和总结了现有研究。然后，我们沿着四个维度，包括 LLMs 的作用、搜索技术、提示策略和应用，提出了一个系统性分类和现有研究的回顾，讨论了使用 LLMs 的潜力和成就。最后，我们探讨当前的挑战，并提出了几个未解问题和未来研究的方向。

1. 引言

算法在解决各个领域的问题中发挥着至关重要的作用，包括工业、经济、医疗和工程等领域。传统的手工设计算法的方法繁琐且耗时，需要广泛的专业知识和大量的努力。因此，人们越来越关注在算法设计中采用机器学习和计算智能技术以自动化和增强算法开发过程。

近年来，大型语言模型（LLMs）已经成为生成人工智能领域的重大突破。LLMs 以其庞大的模型规模、巨大的训练数据和在语言理解、数学推理、代码生成等各个研究领域中有着出色的表现。在过去的三年里，大型语言模型用于算法设计（LLM4AD）已经成为一个新兴的研究领域，有望增强甚至重塑算法的构思、优化和实施方式。LLMs 的强大功能和适应性展示了其在改进和转变算法设计过程中的潜力，包括启发式生成、代码优化，甚至创造针对特定问题的新算法。这种方法不仅减少了设计阶段所需的人力，还提高了算法设计过程的创新性和效率。

尽管 LLM4AD 领域正在受到广泛研究和应用，但在这一新兴领域仍然缺乏系统性综述。本文旨在通过提供一个最新的多维度的系统综述来填补这一空白，全面展示 LLMs 在算法设计中的应用现状、主要挑战和未来研究方向。本文有助于深入探讨 LLMs 在增强算法设计方面的潜力，并为这一令人兴奋的领域的未来创新打下坚实基础。我们希望这将成为对该领域感兴趣的研究人员的有益资源，并为经验丰富的研究者提供一个系统性的综述。本文的贡献如下：

LLM4AD 的系统综述：我们首次对过去三年中发表的 180 多篇高度相关的研究论文进行了系统综述，探讨了使用 LLMs 进行算法设计的发展。
LLM4AD 的多维度分类：我们引入了一个多维度分类法，将 LLM4AD 的作品和功能分为四个不同的维度：1）LLMs 在算法设计中使用的四种范式，概述了这些模型如何为算法设计做出贡献或增强算法设计；2）搜索方法，探讨了 LLMs 用于导航和优化算法设计中搜索空间的各种方法；3）提示词设计，研究了如何使用不同的提示策略；以及 4）应用领域，确定 LLMs 正在应用于解决的不同领域。
LLM4AD 的挑战和未来方向：我们不仅仅是对现有文献进行总结，而是对当前关于算法设计中大型语言模型（LLMs）研究的局限性进行了批判性分析。此外，我们提出了潜在的未来研究方向，包括开发领域特定的 LLMs、探索多模态 LLMs、促进人与 LLM 的互动、使用 LLMs 进行算法评估和理解 LLM 行为、推进全自动算法设计，以及为系统评估 LLM 在算法设计中的表现进行基准测试。这一讨论旨在激发新的方法并促进该领域的进一步发展。

2. 大模型用于算法设计概览

本文旨在对新兴领域 “大语言模型用于算法设计”（LLM4AD）中现有研究工作进行系统的梳理和分类。我们并不打算涵盖所有关于大型语言模型（LLMs）和算法的文献。我们的调查范围如下所述：1）“大语言模型” 一词指的是规模足够大的语言模型。这些模型通常采用 Transformer 架构，并以自回归方式运行。使用较小模型进行算法设计的研究，如传统的基于模型和机器学习辅助的算法，不在考虑范围内。虽然精确定义 “大型” 模型具有挑战性，但大多数前沿的大型语言模型包含超过十亿个参数。使用其他大型模型缺乏语言处理能力的研究，如纯视觉模型，不在考虑范围内。然而，包括语言处理的多模态大型语言模型则在我们的调查范围之内。2）“算法” 一词指的是一组设计用来解决问题的数学指令或规则，特别是当由计算机执行时。这个广泛的定义包括传统的数学算法、大多数启发式方法，以及可以被解释为算法的某些策略。

我们介绍了论文收集和扫描的详细流程，包括四个阶段：

第一阶段数据提取和收集：我们通过谷歌学术、科学网和 Scopus 收集相关论文。我们的搜索逻辑是标题必须包含以下两组词语中至少一组的任意组合：“LLM”、“LLMs”、“大型语言模型”、“算法”、“启发式”、“搜索”、“优化”、“优化器”、“设计”、“方法”（例如，LLM 和优化，LLMs 和算法）。在移除重复的论文后，截至 2024 年 7 月 1 日，我们共收集到 850 篇论文。
第二阶段摘要筛选：我们检查每篇论文的标题和摘要，以有效排除不相关的论文。排除的标准包括这些论文不是英文的，不是用于算法设计的，没有使用大型语言模型的。扫描后，剩余 260 篇论文。
第三阶段全文筛选：我们彻底审查每篇论文，排除缺乏相关内容的论文。扫描后，剩余 160 篇论文。
第四阶段补充：根据对该领域的了解，我们手动添加了一些相关的工作，以避免遗漏任何重要的贡献。在整合了额外的论文后，我们最终得到了 180 多篇论文。我们将首先介绍 LLM4AD 论文列表的概览，然后提出一个分类法来系统地回顾进展。除了组织好的论文列表之外，我们还纳入了 2024 年 7 月 1 日之后发布的一些重要出版物。

图中展示了随时间变化的论文发表数量趋势，时间线以月份表示。图表显示，与 LLM4AD 相关的研究活动显著增加，特别是注意到大多数研究是在近一年进行的。这表明 LLM4AD 是一个新兴领域，随着来自不同领域的学者意识到其巨大潜力，我们预计在不久的将来研究产出将显著增加。

图中还显示了在 LLM4AD 出版物中领先的机构及其所在国家。美国领先，紧随其后的是中国，这两个国家单独占据了 50％的出版物。接下来的八个国家，包括新加坡、加拿大和日本，共同贡献了总出版物的三分之一。发表最多论文的研究机构包括清华大学、南洋理工大学和多伦多大学等知名大学，以及华为、微软和谷歌等大型公司。这种分布强调了研究主题的广泛兴趣和它们在现实世界中的实际应用的重大相关性。

我们从所有审查过的论文的标题和摘要中生成了词云，每个词至少出现五次。它展示了前 80 个关键词，这些词被组织成四个颜色编码的簇，分别是 “语言”、“GPT”、“搜索和优化” 以及 “科学发现”。还突出显示了几个关键词，如 “进化”、“策略”、“优化器” 和 “代理”。

编辑

3. 大模型用于算法设计的四种范式

LLM4AD 论文按照大模型的结合方法可以分为四个范式：1）大模型作为优化算子（LLMaO）、2）大模型用于结果预测（LLMaP）、3）大模型用以特征提取（LLMaE）、4）大模型用来算法设计（LLMaD）。

LLMaO 把 LLMs 用作算法框架内的黑盒优化器。将 LLMs 整合到优化任务中，充分利用它们理解和生成复杂模式和解决方案的能力，以及在提示工程中的良好灵活性。然而，由于它们的黑盒性质，它们通常缺乏可解释性，并在面对大规模问题时面临挑战。
LLMaP 使用 LLMs 作为代理模型，预测结果或响应，功能上大体可以分为分类或回归两类。与其他基于模型的预测器（如高斯过程和传统神经网络）相比，1) LLMs 能够基于其在庞大数据集上接受的训练，处理和生成类人响应。这种能力使它们能够理解和解释数据中的复杂模式，适用于传统建模技术可能因数据的复杂性和复杂表示而难以应对的任务。2) 预训练的 LLMs 可以显著减少与训练高保真模型相比所需的计算负载和时间。
LLMaE 利用 LLMs 挖掘和提取目标问题和（或）算法中的嵌入特征或特定知识，然后在解决新问题中利用这些特征。这一过程利用了 LLMs 的独特和强大的能力，如文本和代码理解，使它们能够识别数据中可能通过传统特征提取方法无法处理或理解的模式和关系。
LLMaD 直接创建算法或特定组件。这种范式充分利用了 LLMs 的语言处理、代码生成和推理能力。LLMs 通过生成启发式算法、编写代码片段或设计函数，进一步推动了算法设计自动化，显著加速算法设计过程，减少人力劳动，并可能为算法开发带来创造性和更好的设计。这是单靠传统算法设计方法难以实现的。

编辑

4. 大模型用于算法设计中的搜索方法

目前的经验表明，单独采用大模型来进行算法设计往往难以应对特定的复杂算法设计任务。通过搜索方法的框架下调用大模型能够显著提升算法设计效率和效果。我们综述了目前在 LLM4AD 中采用的搜索方法，并将其大致分为四类：1）基于采样的方法，2）单点迭代的搜索方法，3）基于种群的搜索方法和 4）基于不确定性的搜索方法。详细的介绍和讨论可以在原文中查看。

5. 大模型用于算法设计中的提示词设计

图中展示了文献中使用的领域或预训练语言模型（LLMs）的百分比。其中，超过 80％的研究选择使用未经特定微调的预训练模型，大约 10％的研究在领域数据集上对预训练模型进行了微调，其中只有 4.4％的模型是在特定问题上从头开始训练的。图中还展示了最常使用的 LLMs。在 LLM4AD 的论文中，GPT-4 和 GPT-3.5 是使用最多的 LLMs，总共占了大约 50％。Llama-2 是最常用的开源 LLM。一旦我们拥有了预训练的 LLMs，提示工程对于有效整合 LLMs 到算法设计中非常重要。我们讨论了 LLM4AD 论文中使用的主要提示工程方法的应用情况，包括零样本、少样本、思维链、一致性和反思。

编辑

6. 大模型用于算法设计的应用领域

我们整理了四个主要的应用领域：1）优化，2）机器学习，3）科学发现，4）工业。其主要工作按照应用类别、方法、大模型结合范式、提示词策略和具体应用问题进行了分类罗列。具体介绍可以在全文中查看。

编辑

7. 未来发展方向

算法设计大模型与使用通用的预训练 LLMs 不同，研究如何专门训练 LLM 以自动设计算法是值得的。在开发领域特定 LLM 时可以探索以下几个方面：1）训练领域 LLM 成本高且资源消耗大。借助领域数据和知识可以减小特定应用的算法 LLM 的规模。2）算法设计生成和收集领域数据存在挑战。与通用代码生成或语言处理任务不同，没有专门用于算法设计的大型且格式化的数据。3）与其学习一个文本和代码生成模型，如何学习算法开发思想和算法推理能力仍是一个未探索的问题。
多模态 LLM 现有的 LLM4AD 工作主要集中在利用 LLM 的文本理解和生成能力，无论是在语言、代码还是统计方面。与传统的基于模型的优化相比，LLM 的一个优势是它们能像人类一样处理多模态信息，这一点很少被研究。已经有一些尝试展示了在算法设计中融入多模态信息的优势，预计将开发更多利用多模态 LLM 的方法和应用。
人类 - 大模型交互需要进一步研究 LLM 与人类专家在算法设计中的互动。例如，在 LLMaD 工作中，LLM 可以被视为智能代理，使人类专家可以介入并接管生成、修改和评估算法等任务。研究如何促进 LLM 与人类专家之间高效且富有成效的合作将是有价值的。可以为此目的使用群体智能中的思想和技术。
基于 LLM 的算法评估 LLM 在算法评估中可能是有帮助的。已经进行了一些尝试来自动评估算法和评估算法设计。例如，已有工作利用基础模型自动生成定义下一个可学习任务的代码，通过生成环境和奖励函数，能够为算法评估创建各种模拟学习任务。我们期待更多关于基于 LLM 的算法评估的研究。
理解 LLM 的行为在大多数研究中，LLM 作为一个黑盒模型运作。解释 LLM 的行为不仅能丰富我们对 LLM 行为的理解，还有助于那些直接请求 LLM 困难或成本高昂的情况。已经有一些尝试来近似和理解 LLM 在解决方案生成中的上下文学习行为。例如，已有人设计了一个白盒线性算子来近似 LLM 在多目标进化优化中的结果。尽管有这些初步尝试，如何解释 LLM 的行为在许多算法设计案例中仍是一个开放的问题，包括启发式生成和想法探索。
全自动算法设计全自动算法设计面临两个主要挑战：1) 生成新的算法思想；2) 创建复杂、冗长的代码。虽然一些研究已经探讨了新思想的生成，但完整的算法设计（而不仅是启发式组件），包括启发式组件和详细的代码实现，仍然是一个挑战。现有应用通常专注于自动化预定义算法框架内的组件，而不是从头开始创建新算法。未来的研究需要解决这些复杂性，以推进全自动算法设计领域的发展。
LLM4AD 的标准测试集和平台标准测试集能促进进行公平、标准化和便捷的比较。虽然我们很高兴见证了多样化的研究工作和应用的出现，但仍然缺乏对基于 LLM 的算法设计的系统和科学的标准评估手段。未来，预计会有更多的基准测试出现，它们将在推进 LLM4AD 方面发挥关键作用。

8. 总结

本文提供了一份最新的关于大语言模型在算法设计中应用（LLM4AD）的系统性综述。通过系统回顾这一新兴研究领域的主要贡献文献，本文不仅突出了 LLM 在算法设计中的当前状态和发展，还引入了一个全新的多维分类体系，分类了 LLM 的结合范式、搜索方法、提示词方法和应用场景。这一分类体系为学术界和工业界的研究人员提供了一个框架，帮助他们理解和使用 LLM 进行算法设计。我们还讨论了该领域当前面临的限制和挑战并提出和探讨未来研究方向来激发和指引后续研究。

展望未来， LLM 与算法设计的交叉具有革命性地改变算法设计和应用方式的巨大潜力。LLM 在算法设计过程中的应用有助于极大的提高自动化程度并可能促进产生更高效、更有效和更具创造性的算法，以更好解决各个领域的复杂问题。我们希望本文能够有助于理解这一潜力，并促进 LLM4AD 这一有前景的研究领域的发展。

#90后上海女生，成美国数学大奖首位女性华人得主

由陶哲轩担任评委的2024年美国塞勒姆奖，由华人女数学家王艺霖和阿根廷数学家Miguel Walsh获得！来自上外附中的91年上海女生王艺霖，成为塞勒姆奖首位女性华人得主。

最近，美国塞勒姆奖（Salem Prize）公布了2024年度获奖人——华人女数学家王艺霖和阿根廷数学家Miguel Walsh！

王艺霖是自陶哲轩（2000年）和詹大鹏（2011年）后的第三位获得该奖的华人，也是首位女性华人得主。

塞勒姆奖给王艺霖的颁奖词是——

王艺霖因在复分析、概率论和数学物理之间建立了深层次的新联系，特别是在Teichmuller理论和Schramm-Loewner演化理论方面的贡献，而荣获塞勒姆奖。

Miguel Walsh是布宜诺斯艾利斯大学数学系教授。

给Miguel Walsh的颁奖词是——

Miguel Walsh因其在遍历理论、解析数论及多项式方法的贡献而获得萨勒姆奖，其中包括非传统遍历平均的收敛定理、乘法函数局部傅里叶均匀性的界限，以及对多样式上有理点的界限。

担任这届评委的陶哲轩，也在第一时间转发了此消息，并表示祝贺。

王艺霖讲解数学的视频，在Youtube和B站上就大受欢迎。

首位女性华人得主王艺霖

塞勒姆奖由普林斯顿高等研究院管理，每年颁发给在调和分析及相关领域做出杰出贡献的年轻数学家。

该奖项以法国数学家拉斐尔·萨勒姆命名，以纪念他作为20世纪伟大分析学家的遗产。

而塞勒姆奖的历届得主中，也有多位获得了菲尔兹奖。

陶哲轩表示，「王艺霖揭示了许多新的特征和方法来研究Schramm-Loewner演化，这推动了复平面中许多重要的随机结构。我个人非常期待看到她的工作将来如何推动这一领域的发展。」

在博士论文中，王艺霖引入了一个称为Loewner能量的概念，用于量化简单平面曲线的圆度。

论文地址：https://arxiv.org/abs/1601.05297

直观上，Loewner能量能测量曲线偏离完美圆形的程度。

利用这一概念，王艺霖研究了一类独特的随机平面曲线，称为Schramm-Loewner演化（SLE），该曲线模拟了二维临界格子模型和共形场论（CFT）中的界面。

Loewner能量的引入，使得王艺霖能够将SLE与泰希米勒理论和双曲几何联系起来。

尤其重要的是，她发现SLE环测度的作用与通用泰希米勒空间的Kähler势相一致——这是一个包含黎曼曲面泰希米勒空间作为复子流形的无限维复流形，其中Kähler结构的研究最初受到弦理论的启发。

她与Fredrik Viklund合作，基于SLE和更广泛的随机共形几何的结果，证明了关于通用泰希米勒空间的新结果。

论文地址：https://arxiv.org/abs/1903.08525

Fredrik Viklund这样回忆看到王艺霖论文时的感受——

当王艺霖的第一篇论文出现在我桌上时，我立刻对此感到兴奋，并很快开始探索关于Loewner能量的问题。

后来在一个研讨会上，她解释了她在我熟悉的SLE领域和我不熟悉的泰希米勒理论之间新发现的联系。这些联系美丽、引人入胜，甚至带有神秘色彩。我知道，这就是我想要追求的方向。

随后，王艺霖和Viklund开始了一场「紧张而富有成效的合作」。

「第一篇论文很快就完成了，但第二篇需要更艰苦的工作。在她强烈的审美感引导下，王艺霖希望两人不仅要取得最佳结果，还要实现最优雅的证明。最终，我们的工作得到了回报，完成了或许是我最满意的论文，」Viklund这样表示。

论文地址：https://arxiv.org/abs/2012.05771

在这篇论文中，两人对Loewner-Kufarev能量和Loewner-Kufarev等式进行了研究。

随后，王艺霖在与Martin Bridgeman、Kenneth Bromberg和Franco Vargas Pallete合作的最近一篇预印本论文中，将Loewner能量与双曲三维流形的重整化体积联系起来。

论文地址：https://arxiv.org/abs/2311.18767

这种联系暗示了 Loewner 能量的全息原理，令人联想到由胡安·马尔丁·马尔达塞纳（Juan Martín Maldacena）提出的弦理论中对应的AdS3/CFT2猜想。

让我们期待，王艺霖在未来利用概率方法，在随机共形几何的背景下建立更广泛的全息对应关系。

IHES所长Emmanuel Ullmo也对王艺霖表示了祝贺：「除了出色的研究成果外，王艺霖还是研究所非常活跃的成员，是IHES科学活动的推动力。她完美体现了我们在IHES所培养的合作与跨学科精神。」

个人简介

王艺霖1991年出生于中国上海，中学毕业于上海外国语大学附属外国语学校。

中学毕业后，她前往里昂Parc高中，就读数理预科班。

2011年，她考入巴黎高等师范学院，并先后获得了巴黎第六大学基础数学硕士学位和巴黎第十一大学概率与统计硕士学位。

2015年，她前往瑞士苏黎世理工学院读博，师从2006年菲尔兹奖得主Wendelin Werner。

2019年博士毕业后，她又前往美国麻省理工学院，在那里获得了C.L.E. Moore讲师职位。

随后，她成为美国国家数学科学研究所（MSRI）的Strauch博士后研究员。

2022年6月，她加入法国高等科学研究所（IHES）担任助理教授，成为由西蒙斯基金会资助的IHES首位享有盛誉的助理教授职位的持有者。IHES招人要求极高，已经有多位菲尔兹奖得主。

2025年7月，她将加盟母校苏黎世联邦理工学院任副教授。

她的研究处于复分析和概率论的交叉领域，主要关注旨在揭示随机保形几何、几何函数论和Teichmüller理论之间联系的主题。动机来自于数学物理。

她大部分时间都在研究Loewner能量、Schramm-Loewner演化、高斯自由场、Weil-Petersson Teichmüller空间、拉普拉斯算子的行列式、布朗环测度、双曲空间等。

目前，她是《伦敦数学学会公报》和《伦敦数学学会期刊》的编辑。

另一位获奖者：Miguel Walsh

Miguel Nicolás Walsh是一位阿根廷数学家，主要研究数论和遍历理论。

Walsh出生于阿根廷布宜诺斯艾利斯，2010年在布宜诺斯艾利斯大学获得本科学位，并于2012年在同一所学校获得博士学位。

他还曾是伯克利数学科学研究所的成员、加州大学洛杉矶分校纯粹与应用数学研究所的高级研究员，以及普林斯顿高等研究院的冯·诺依曼研究员。

Walsh曾获得克雷研究奖学金（Clay Research Fellowship），并曾任牛津大学默顿学院（Merton College）的研究员。他目前是布宜诺斯艾利斯大学的数学教授。

他于2013年获得MCA奖。2014年因对数学的贡献获得ICTP拉马努金奖（Ramanujan Prize），至今他是这两个奖项的最年轻得主。

2017年6月，Walsh受邀在2018年巴西里约热内卢的国际数学家大会上展示其研究成果。2021年，他被选为美洲数学大会（Mathematical Congress of the Americas）的全体大会报告人。

2024年，他在迈阿密举行的数学波会议（Mathematical Waves Conference）上获得美洲数学科学研究所（Institute of the Mathematical Sciences of America）首届IMSA奖。同年，他还获得拉丁美洲和加勒比数学联盟（Mathematical Union of Latin America and the Caribbean）的UMALCA奖。

菲尔兹奖得主的摇篮：塞勒姆奖

塞勒姆奖设立于1968年，以纪念拉斐尔·塞勒姆（Raphaël Salem，1898-1963）而命名。

塞勒姆是一位数学家，以深入研究傅里叶级数与数论之间的联系以及率先将概率方法应用于这些领域而闻名。

他在法国调和分析的发展中发挥了重要作用。尤其是他在1963年出版的《Algebraic Numbers and Fourier Analysis》和《Ensembles Parfaits et Séries Trigonométriques》的书籍，以及他与Zygmund共同撰写的关于随机三角级数的论文（Acta Math. 91 (1954), 245–301）都具有很大的影响力。

该奖由普林斯顿高等研究院数学学院颁发。萨勒姆奖被视为极具声望的奖项，许多菲尔兹奖得主曾经获得过此奖。1968年至今，总共有56位获奖者，其中诞生了10位菲尔兹奖得主。

参考资料：

https://www.ias.edu/math/activities/salem-prize

https://www.ias.edu/math/2024-salem-prize-winners

https://www.ihes.fr/en/salem-prize-wang/

https://yilwang.weebly.com/

https://mathstodon.xyz/@tao/113365176960404250

#从自我进化视角出发，全面解析LLM的推理能力技术演进路径

论文标题：A Survey on LLM Complex Reasoning through the Lens of Self-Evolution
论文链接：https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution?channel=doi&linkId=67b8b5b0207c0c20fa9111fb&showFulltext=true
仓库链接：https://github.com/cs-holder/Reasoning-Self-Evolution-Survey

1. 引言

在人工智能领域，大型语言模型的复杂推理研究正成为学术界和工业界关注的焦点。随着 OpenAI 的 O1 以及后续 DeepSeek R1 等突破性成果的发布，这一领域的研究热度持续升温，引发了广泛的学术讨论和实践探索。这些里程碑式的研究成果不仅推动了相关技术的快速发展，也激励着研究者们不断尝试复现并拓展其应用边界。

为促进该领域的深入研究，哈工大赛尔实验室知识挖掘组从自我进化的视角对现有技术体系进行了系统性分析从自我进化的视角对现有技术体系进行了系统性分析。我们的研究框架包含三个相互支撑的核心维度：数据进化、模型进化和自我进化。在数据进化维度，我们着重探讨了推理训练数据的优化策略，包括任务设计的改进和推理计算过程的优化，旨在提升思维链推理的质量和效率；在模型进化维度，我们系统梳理了通过训练优化模型模块来增强复杂推理能力的技术路径；在自我进化维度，我们深入分析了进化策略与模式，并基于此对 O1 类代表性工作进行解读。

本研究基于对 200 余篇前沿文献的深入调研，全面总结了提升 LLM 推理能力的技术演进路径。从基于树搜索的短思维链到基于强化学习的长思维链，我们系统梳理了当前最先进的研究方法，并对未来可能的研究方向进行了前瞻性展望。我们期待这篇综述能够为 LLM 复杂推理研究社区提供新的思路，推动该领域向更深层次发展，为提升 LLM 的推理能力开辟新的研究路径。

2. 章节组织

本文将从三个主要部分介绍 LLM 复杂推理的自我进化方法：数据进化、模型进化和自我进化。最后，我们将分析具有代表性的 O1 类工作，并对未来研究方向进行展望。

数据进化：探讨如何通过任务进化和思维链进化来生成更高质量的训练数据。
模型进化：关注如何通过优化模型模块来提升系统的推理能力。
自我进化：探讨如何通过迭代的数据和模型进化来实现系统的自我优化。

3. 数据进化

数据进化关注的是如何通过生成更高质量的训练数据来提升系统的推理能力。这一部分主要包含任务进化和思维链进化。我们将详细介绍每个部分的优化策略和技术。

3.1 任务进化

任务进化专注于生成更多样化和更具挑战性的任务，以提升模型的推理和泛化能力。当前研究中，任务进化的三个关键方向包括任务多样性、任务复杂性和任务可靠性。

任务多样性：为提高任务多样性，一些研究提示 LLM 修改数据类型和逻辑操作，生成结构相似但逻辑不同的任务。另一些研究使用 LLM 重新表述参考问题，或采用温度采样和以多样性为重点的提示来丰富问题生成。还有研究明确指导 LLM 创建罕见且领域特定的问题。此外，结合人工编写的任务与模型生成的任务，通过特定提示生成新任务也是一种有效方法。
任务复杂性：生成更复杂任务的方法包括添加约束、深化、具体化、增加推理步骤和增加输入复杂性。例如，通过引入额外的约束或要求来增加任务难度，或通过扩展查询深度和广度来提升模型的推理能力。具体化方法将问题中的通用概念替换为更具体的概念，使指令更清晰。增加推理步骤则通过要求额外的推理步骤来加强模型的逻辑思维能力。增加输入复杂性则通过修改问题条件，引入结构化数据或特定输入格式，提升模型的鲁棒性和泛化能力。
任务可靠性：自动生成任务可能会产生未解决的任务或错误答案。为解决这一问题，一些研究使用微调的 LLM 对任务进行评分并选择高质量任务。另一些研究从原始问题生成任务，并通过验证答案过滤不一致性。还有一些研究通过 Python 解释器和预定义规则验证编程任务的正确性以确保质量。此外，生成对抗网络（GAN）可用于合成任务，并通过评估与真实数据相似性的批评器提高可靠性。从数学解决方案中推导问题，或从高质量开源代码中创建编程任务，也是提高任务可靠性的有效方法。

3.2 思维链进化

思维链进化通过定义三个关键的元操作来构建更强大的推理链，这些元操作通过搜索算法扩展，生成更高质量的推理链。

3.2.1 元操作

思维链进化通过定义三个关键的元操作来构建更强大的推理链：逐步推理、评估和后处理。逐步推理将问题分解为逐步依赖的步骤，评估则在推理过程中进行自我评估和反思，后处理则对推理结果进行修正和总结。这些元操作通过搜索算法扩展，生成更高质量的推理链。

逐步推理：将复杂问题分解为一系列逐步依赖的步骤，使模型能够逐步解决每个子问题。这种方法通过递归分解，使模型能够处理更复杂的任务。例如，CoT 通过逐步提示解决每个子问题，Plan-and-Solve 通过生成计划并基于计划进行推理，Least-to-Most Prompting 通过显式分解问题并逐步解决每个子问题，ReACT 通过结合迭代推理和行动来增强推理过程。
评估：在推理过程中进行自我评估和反思，使模型能够识别和纠正错误。评估可以分为结果级、步骤级和 token 级。结果级评估在推理完成后对整个解决方案进行评估，步骤级评估在推理过程中对每个步骤进行评估，token 级评估对每个生成的 token 进行评估。这些评估方法通过不同的粒度，提供更细致的反馈，帮助模型改进推理过程。
后处理：后处理对推理结果进行修正和总结，使模型能够从错误中学习并改进未来的推理。后处理方法包括过滤、总结和修正。过滤直接移除低质量的推理结果，总结从推理过程中提取关键信息，修正则通过纠正错误来优化推理结果。这些方法通过不同的方式，提高推理结果的质量和可靠性。

3.2.2 显式树搜索（Short CoT）

显式树搜索方法通过树状搜索算法（如 BFS/DFS、Beam Search、A * 和 MCTS）来探索多个推理路径，生成正确且简洁的推理链。这些方法在搜索过程中使用评估函数指导探索方向，并进行剪枝以提高效率。例如，BFS/DFS 通过经典搜索算法探索多样化推理路径，Beam Search 通过维护候选序列平衡搜索准确性和计算效率，A * 通过评估函数优化搜索效率，MCTS 则通过平衡探索和利用来找到高质量的推理路径。

3.2.3 隐式试错搜素（Long CoT）

隐式试错搜素方法通过线性化整个搜索过程，允许模型在推理过程中进行自我评估和自我修正，生成包含错误检测、回溯和修正的长推理链。这种方法不依赖外部评估器或修正器，而是通过模型的自我评估机制来调整推理路径。例如，O1 Journey 通过蒸馏方法训练模型生成长推理链，而 DeepSeek-R1、Kimi-k1.5 和 T1 则通过强化学习训练模型生成长推理链。

3.2.4 显式树搜索与隐式试错搜索的比较和关联

比较：

显式树搜索方法通过树状搜索算法（如 BFS/DFS、Beam Search、A * 和 MCTS）来探索多个推理路径，生成正确且简洁的推理链。这些方法在搜索过程中使用评估函数指导探索方向，并进行剪枝以提高效率。而隐式试错搜索方法通过线性化整个搜索过程，允许模型在推理过程中进行自我评估和自我修正，生成包含错误检测、回溯和修正的长推理链。这种方法不依赖外部评估器或修正器，而是通过模型的自我评估机制来调整推理路径。

关联：

搜索空间角度：树搜索专注于探索单个推理步骤定义的动作空间，确保每一步的逻辑性。试错搜索引入元操作（如评估、修正、回溯）扩展动作空间，生成更详细的长推理链。因此，如果将 Tree Search 的动作空间扩展为包含评估、修正、回溯等元操作，那么理论上可以通过 Tree Search 搜索到 Long CoT。
推理能力进化角度：Long CoT 是解决新问题的有效策略，通过试错和自我修正探索解决方案。Short CoT 通过持续训练从 Long CoT 中提取知识，学习高效推理路径，减少试错，缩短推理链。Long CoT 作为初始解决方案，其知识可用于学习 Short CoT，后者作为先验知识，减少处理更复杂任务时的试错迭代。

4. 模型进化

模型进化关注的是如何通过优化模型的各个模块来提升系统的推理能力。这一部分主要包含 Reasoner、Evaluator 和 Post-Processor 的优化方法。我们将详细介绍每个模块的优化策略和技术。

4.1 Background RL Knowledge

强化学习为 LLM 的模型进化提供了核心优化框架，其技术演进从传统 RLHF 逐步发展为更高效的范式。RLHF 通过人工标注的偏好数据训练结果奖励模型实现LLM对齐。PPO 算法通过约束策略优化步长进行策略偏移控制，具备稳定性地优势，但存在训练复杂度高、资源消耗大等问题。为此后续研究提出多种改进：REINFORCE 简化架构，利用最高概率动作作为基线（ReMax）或多轨迹采样估计基线（RLOO），降低对价值模型的依赖；GRPO 通过蒙特卡洛组内归一化替代价值模型，提升训练稳定性；DPO 省去显式奖励建模，直接通过偏好数据对齐策略模型，但面临细粒度优化不足的局限；PRIME 结合结果奖励模型（ORM）的训练实现 token 级隐式奖励信号分发。

4.2 Reasoner 优化

Reasoner 是模型的核心组件，负责生成推理过程和最终答案。优化 Reasoner 的方法主要包括行为克隆、偏好优化和强化学习。

4.2.1 行为克隆

行为克隆通过监督学习直接模仿高质量推理轨迹来优化模型，是模型进化的基础方法。其核心流程包括：从正确解中筛选训练数据，通过微调使模型学习标准推理模式。

然而，传统方法仅使用正确数据，导致大量错误解被浪费。为此，改进方法通过逆向策略利用错误数据：例如，将错误问题重新生成正确解法以扩充正样本，或修改错误解的指令标签（如将 “生成正确答案” 改为 “生成错误答案”），使其转化为负样本供模型学习。此外，部分方法训练专用修正器模型，定位并修复推理错误。

尽管行为克隆实现简单，但其依赖静态数据集的特性限制了持续进化能力，且难以充分探索错误样本中的潜在价值，成为后续强化学习方法的重要补充。

4.2.2 偏好优化

偏好优化通过推动高质量推理路径的概率上升，低质量路径的概率下降来提升模型的推理能力。偏好优化可以根据偏好数据的粒度分为解决方案级、步骤级和 token 级优化。

解决方案级偏好优化：通过比较不同解决方案的质量来优化模型。具体来说，给定一组解决方案，根据答案的正确性将其分为正确和错误两组，然后构建偏好对进行优化。这种方法简单直观，但对中间推理步骤的优化能力较弱。
步骤级偏好优化：通过评估每个推理步骤的质量来优化模型。具体来说，通过主动构造或树搜索方法生成带有相同前缀的正确和错误推理轨迹，然后构建偏好对进行优化。这种方法能够更细致地优化模型的推理过程，但对数据的要求较高。
Token 级偏好优化：通过评估每个生成的 token 来优化模型。具体来说，通过隐式奖励或显式标注方法为每个 token 分配奖励值，然后基于这些奖励值进行优化。这种方法能够提供最细粒度的反馈，但计算复杂度较高。

4.2.3 强化学习

强化学习通过与环境的交互来优化 LLM 的推理能力。具体来说，强化学习方法包括 model-free 在线强化学习、离线强化学习、基于模型的强化学习和层次强化学习。

model-free 在线强化学习：通过直接与环境交互来训练策略模型。具体来说，模型在环境中生成推理轨迹，然后根据奖励信号进行优化。常用的方法包括 REINFORCE、PPO 和 GRPO。这些方法通过在线交互，能够动态调整模型的行为，但对环境的依赖性较强。
离线强化学习：使用静态数据集进行训练，而不是通过与环境交互来收集数据。具体来说，离线强化学习方法如 DPO 通过收集偏好数据，然后基于这些数据进行优化。这种方法能够高效利用已有数据，但对数据质量的要求较高。
基于模型的强化学习：通过模拟环境来减少训练和推理中的交互成本。具体来说，模型首先学习一个环境模型，然后在模拟环境中进行训练。这种方法能够显著减少与真实环境的交互次数，但对环境模型的准确性要求较高。
层次强化学习：通过分解任务为高层次和低层次的马尔可夫决策过程来提升推理能力。具体来说，高层次模型负责规划推理步骤，低层次模型负责生成具体的推理内容。这种方法能够更好地模拟人类的推理过程，但实现复杂度较高。

4.3 Evaluator 优化

Evaluator 负责评估 Reasoner 生成的推理过程和答案的质量。优化 Evaluator 的方法主要包括训练数据的构造和训练格式的选择。

4.3.1 训练数据构造

Evaluator 的优化需要构造高质量的训练数据，包括结果级、步骤级和 token 级数据。

结果级数据构造：通过正确答案标签或 LLM 评估来生成。具体来说，使用正确答案标签将解决方案分类为正确和错误，然后基于这些分类进行训练。这种方法简单直观，但对中间推理步骤的评估能力较弱。
步骤级数据构造：通过蒙特卡洛采样、LLM 评估或一致性评估来生成。具体来说，通过采样或评估方法为每个推理步骤分配奖励值，然后基于这些奖励值进行训练。这种方法能够提供更细致的反馈，但计算复杂度较高。
Token 级数据构造：通过生成模型重写原始解决方案或利用隐式奖励来生成。具体来说，通过重写或奖励分配方法为每个 token 分配奖励值，然后基于这些奖励值进行训练。这种方法能够提供最细粒度的反馈，但实现难度较大。

4.3.2 训练格式

Evaluator 的训练格式可以是点式、成对式或语言式。

点式训练：使用标量值优化评估模型。具体来说，通过预测每个解决方案或步骤的奖励值来训练模型。这种方法简单直观，但对偏好数据的利用不够充分。
成对式训练：使用偏好数据优化评估模型。具体来说，通过比较不同解决方案或步骤的偏好关系来训练模型。这种方法能够更好地利用偏好数据，但对数据的要求较高。
语言式训练：通过生成自然语言反馈来提升评估的可靠性和可解释性。具体来说，通过生成对解决方案或步骤的自然语言评价来训练模型。这种方法能够提供更丰富的反馈，但实现复杂度较高。

4.4 Post-Processor 优化

Post-Processor 负责对 Reasoner 生成的推理结果进行修正和总结。优化 Post-Processor 的方法主要包括行为克隆和强化学习。

行为克隆：通过利用错误数据生成修正数据来提升模型的自我修正能力。具体来说，通过生成错误数据并利用正确数据进行微调，训练模型学习如何修正错误。这种方法能够显著提高模型的自我修正能力，但对数据的要求较高。
强化学习：通过整合外部执行反馈来提升模型的自我改进能力。具体来说，通过将修正过程建模为马尔可夫决策过程，并使用强化学习算法进行优化，训练模型学习如何在推理过程中进行自我修正。这种方法能够提供更动态的反馈，但实现复杂度较高。

5. 自我进化

自我进化要求系统利用自身生成的数据来持续提升性能。这一部分将探讨自我进化的理论基础、策略、模式以及面临的挑战和未来方向。

5.1 自我进化背后的理论

通过期望最大化（EM）算法，自我进化被形式化为一个交替优化过程。E 步（数据进化）生成高质量推理轨迹并评估其质量，M 步（模型进化）基于生成数据优化模型参数，形成一个闭环迭代机制。这一过程在理论上能够保证系统性能的逐步提升并最终收敛。

5.2 自我进化策略

自我进化策略包括独立进化、合作进化和对抗进化。独立进化通过单独优化一个模块来提升性能，合作进化通过模块间的合作来提升整体性能，而对抗进化则通过模块间的对抗来避免局部最优问题。

独立进化：每个模块独立进行优化，不依赖于其他模块的反馈。例如，Reasoner 可以通过行为克隆或偏好优化单独进行训练，Evaluator 可以通过结果级或步骤级数据单独进行训练，Post-Processor 可以通过行为克隆单独进行训练。这种方法简单直观，但可能无法充分利用模块间的协同作用。
合作进化：模块间通过合作来提升整体性能。例如，Reasoner 生成的推理结果可以用于训练 Evaluator，Evaluator 的反馈可以用于优化 Reasoner，Post-Processor 的修正结果可以用于进一步训练 Reasoner。这种方法能够充分利用模块间的协同作用，提升整体性能，但实现复杂度较高。
对抗进化：模块间通过对抗来避免局部最优问题。例如，Task Creator 生成更具挑战性的任务来测试 Reasoner，Reasoner 通过解决这些任务来提升自身能力。这种方法能够有效避免模型陷入局部最优，但需要精心设计对抗机制。

5.3 自我进化模式

自我进化模式包括仅优化 Reasoner、Reasoner + Evaluator、Reasoner + Post-Processor、Reasoner + Task Creator 和 Reasoner + Evaluator + Post-Processor。每种模式都有其独特的优化方法和优势，通过结合多种模式可以实现更显著的性能提升。

仅优化 Reasoner：仅对 Reasoner 进行优化，不涉及其他模块。优化方法包括行为克隆、偏好优化和强化学习。这种方法简单直观，但可能无法充分利用其他模块的反馈。
Reasoner + Evaluator：Reasoner 生成的推理结果用于训练 Evaluator，Evaluator 的反馈用于优化 Reasoner。这种方法能够充分利用模块间的协同作用，提升推理能力和评估能力。
Reasoner + Post-Processor：Reasoner 生成的推理结果用于训练 Post-Processor，Post-Processor 的修正结果用于进一步训练 Reasoner。这种方法能够提升推理结果的质量和可靠性。
Reasoner + Task Creator：Task Creator 生成更具挑战性的任务来测试 Reasoner，Reasoner 通过解决这些任务来提升自身能力。这种方法能够提升模型的泛化能力和任务多样性。
Reasoner + Evaluator + Post-Processor：Reasoner 生成的推理结果用于训练 Evaluator 和 Post-Processor，Evaluator 的反馈和 Post-Processor 的修正结果用于进一步训练 Reasoner。这种方法能够充分利用模块间的协同作用，实现更全面的性能提升。

6. 对代表性 O1 类研究的重新解读

通过对代表性 O1 类研究的分析，我们发现这些研究都可以用自我进化框架来解释。例如，Marco-O1 通过 MCTS 生成数据并进行监督式微调，O1 Journey 通过长推理链的生成和 DPO 优化提升推理能力，Slow Thinking with LLMs 通过迭代训练和 DPO 优化实现 Reasoner 和 Evaluator 的共同进化，rStar-Math 通过多轮迭代训练实现 Reasoner 和 Evaluator 的共同进化，OpenR/O1-Coder 通过 RL 优化 Reasoner 和 Evaluator，DeepSeek R1/Kimi-k1.5/T1 则通过在线 RL 实现 Reasoner、Evaluator 和 Post-Processor 的共同进化。

7. 挑战和未来方向

自我进化框架的挑战与方向：

更有前景的自我进化模式：通过探索不同的模块组合和策略，如合作和对抗学习，可以实现更有效的自我进化框架。理想情况下，所有模块的同时提升将带来持续且显著的改进。

系统泛化：自我进化通过迭代训练提升系统性能。持续进化的关键在于防止过拟合并确保泛化。首先，任务泛化至关重要；合成更多样化和复杂的任务可以确保更广泛的覆盖范围，这是解决泛化问题的基础。其次，推理器、评估器和后处理器的泛化能力至关重要。B-StAR 显示，增强推理器的探索能力可以减少过拟合。后处理器在多样化解决方案中也起着关键作用。此外，奖励黑客行为表明当前的评估器可能会过拟合到推理器并利用奖励捷径。总之，推理系统的泛化对于自我进化框架中的持续增强至关重要。

自我进化视角下提升 R1 等工作的不足：

任务多样性：当前任务生成方法在复杂性和多样性上有提升空间，需进一步增强任务多样性，生成更具挑战性和领域相关性的任务。
自我评估和修正能力：模型的自我评估和修正能力在准确性和效率上存在不足，需进一步提升以更准确地识别和修正错误，从而通过更准确更高效的试错搜索实现数据进化。
奖励建模方法：解决LLM在隐式试错搜索过程中过思考和欠思考等问题可能需要更细粒度的奖励信号，现有奖励建模方法在泛化能力和准确性不足等问题，需开发更有效的奖励建模方法以更准确地评估模型性能，指导基于RL的模型进化。

将自我进化应用于具身智能场景：

在具身智能场景中，为实现自我进化，需提升模型对多模态数据的理解能力，重新定义多模态推理的思维链格式，降低与环境交互的成本，并增加训练数据资源。

8. 总结

本文系统地综述了 LLM 复杂推理的自我进化方法，从数据进化、模型进化和自我进化三个角度进行了深入分析。通过对现有技术和方法的总结，我们希望为 LLM 复杂推理社区提供新的研究方向和灵感，推动 LLM 推理能力的进一步提升。

#DeepSeek的MLA，任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络（Multi-head Latent Attention, MLA）是其经济推理架构的核心之一，通过对键值缓存进行低秩压缩，显著降低推理成本 [1]。

然而，现有主流大模型仍然基于标准注意力架构及其变种（e.g., MHA, GQA, MQA），推理成本相比 MLA 呈现显著劣势。使预训练的任意 LLMs 快速迁移至 MLA 架构而无需从头预训练，这既有重大意义又具有挑战性。

复旦 NLP 实验室、华东师大、上海 AI Lab、海康威视联合提出 MHA2MLA 框架，通过部分 RoPE 保留（Partial-RoPE）和键值联合表示低秩近似（Low-rank Approximation）两个关键步骤，成功将任意 MHA/GQA 架构迁移到 MLA。

目前，MHA2MLA 已位列🚀alphaXiv 热度榜🔥

复旦 NLP 实验室博士后纪焘为第一作者，副研究员桂韬为通讯作者。

论文标题：Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs
论文链接：https://arxiv.org/abs/2502.14837
开源代码：https://github.com/JT-Ushio/MHA2MLA

论文概览

本文聚焦如何将预训练的基于 MHA/GQA 的大语言模型高效迁移到 DeepSeek 提出的经济推理架构 —— 多头潜在注意力（MLA）。

MHA 与 MLA 在多处存在差异，使得 MHA2MLA 极具挑战：

位置编码不同：MHA 采用全维度位置编码（PE），MLA 仅少量维度采用 PE，剩余维度则 PE 无关
缓存对象不同：MHA 缓存分离的键向量及值向量，MLA 缓存带 PE 的键向量及 PE 无关的键值联合低维表示向量
参数矩阵不同：MHA 包含查询、键、值三个线性变换矩阵，MLA 则更加复杂、多达七个目的不同的线性变换矩阵
运算形式不同：MHA 的运算受限于访存瓶颈，MLA 则能通过矩阵吸收等优化实现更高的访存效率

本文提出的 MHA2MLA 为了最大化利用 MHA 预训练参数矩阵并对齐 MLA 的缓存对象和运算形式，首先通过部分 RoPE 保留（Partial-RoPE）分离出 PE 相关表示（少量维度，如 1/8）和 PE 无关表示（大量维度），其中 PE 相关的键向量对齐 MLA。其次拼接值的变换矩阵（W_v）和 PE 无关的键的变换矩阵（W_{k, nope}），并进行 SVD 分解得到降维变换矩阵和升维变化矩阵，中间的键值联合低秩表示对齐 MLA，完成了缓存对象的对齐以及运算形式的对齐。

在 135M~7B 上的实验表明，仅需使用预训练数据的 0.3% 到 0.6% 进行高效微调，即可基本还原架构迁移带来的性能损失。并且 MHA2MLA 还能结合其他高效推理技术，例如结合 4-bit KV 缓存量化，Llama2-7B 减少了 92.19% KV 缓存，而 LongBench 上的性能仅下降 0.5%。

部分 RoPE 保留（Partial-RoPE）

为了实现从标准的 MHA（多头注意力机制）到 MLA（多头潜在注意力机制）的迁移，作者提出了部分 RoPE 微调（partial-RoPE finetuning）策略，该策略通过从大量维度中移除 RoPE（旋转位置编码）并将其转换为 NoPE（无位置编码）来解决 MLA 和 RoPE 冲突的问题。

作者主要尝试了四种移除 RoPE 的策略：1）保留高频位置信息 S_high，该方法最简单直接，保留了局部语义特征相关的高频特征 [2]；2）保留低频位置信息 S_low，与保留高频位置信息的策略形成对比，检验低频成分在语义理解任务中的潜在作用；3）均匀采样策略 S_uniform，等间隔均匀采样频率保留位置频率；4）使用查询、键向量范数乘积 (2-norm) 近似注意力贡献值 [2] 的筛选策略 S_{2-norm}，针对每个注意力头，计算所有频率的平均 2-norm 分数，随后选择得分较高的频率保留位置信息。该策略能自适应识别对模型性能关键的特征频率。

Partial-RoPE 的消融实验表明：1）保留低频位置信息的 S_low 导致了最大的性能损失，保留高频位置信息的 S_high 导致的性能损失明显小于保留低频，说明了高频维度的重要性；2）S_uniform 和 S_{2-norm} 均展现出更优的性能，分别在 135M 模型和 1.7B 模型上取得了最少的性能损失。最终作者选择 S_{2-norm} 作为默认配置，是因为注意力贡献分数较低的维度在结合低秩近似时损失更少。

键值联合表示低秩近似

移除了大量维度的 RoPE 之后，MHA2MLA 就可以对值向量和 PE 无关的键向量进行低秩近似，从而大幅减少缓存空间。为最大化保留预训练知识，本文提出两种基于奇异值分解 (SVD) 的投影矩阵初始化策略：1）SVD_split，分别对矩阵进行低秩分解，保持各自的表征特性；2）SVD_joint，考虑键值矩阵之间的关联性，参数矩阵拼接后整体进行低秩分解。

消融实验表明：无论是在 GQA 基座还是 MHA 基座上，SVD_joint 方法始终优于 SVD_split 方法。

实验结果

作者在多种规模的语言模型（SmolLM-135M/360M/1B7 和 Llama2-7B）以及不同压缩比例的配置下评估了所提出的方法。实验表明：1）相同微调设置下，压缩比例越高，性能损失越大，特别是对于两个 GQA 模型；2）相同压缩比例下，原始模型参数越多，性能损失越小，揭示了 MHA2MLA 的潜在 scaling law。3）MHA2MLA 的微调数据量仅需预训练数据的 0.3%~0.6%，避免了从头预训练 MLA 模型的高昂成本。

作者在 LongBench 长文本生成任务中评估了结构迁移后的 Llama2-7B 模型，将 KV 缓存量化作为基准对比方案。实验表明，MHA2MLA 能在 d_{kv}=16 的情况下实现与 2-bit 量化相同的压缩比例（87.5%），同时仅损失一半的性能（-3.0% vs. -6.2%）；进一步结合 4-bit 量化后，不仅压缩比例超过 2-bit 量化，性能损失也都优于所有 2-bit 的基线方法，例如 92.19% 压缩比例仅掉 0.5%，96.87% 压缩比例仅掉 3.2%，证明了 MHA2MLA 能显著减少推理时的访存瓶颈。

总结与展望

本文主要研究如何将基于 MHA 的预训练 LLMs（或其变体）适配为 KV 缓存高效的 MLA 架构，以显著降低推理时的访存瓶颈。通过精心的架构设计，MHA2MLA 仅需 0.3% 至 0.6% 预训练数据。该框架展现了与现有压缩技术的强兼容性，同时保持了常识推理和长上下文处理能力，为部署资源高效的 LLMs 提供了一条实用路径。

作者提到该研究受限于硬件条件，当前实验未能覆盖 Llama3 等需 128K 长上下文微调的模型，也未突破 7B 参数规模的验证瓶颈。扩展至更多的基座将作为未来工作之一。作者还计划结合参数高效微调策略，进一步降低架构迁移过程中的参数更新规模。

参考文献：

[1] DeepSeek-AI, Aixin Liu, Bei Feng et al.DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. ArXiv preprint.

[2] Federico Barbero, Alex Vitvitskyi, Christos Perivolaropoulos, Razvan Pascanu, Petar Veličković. Round and Round We Go! What makes Rotary Positional Encodings useful? CoRR 2024

#Adversarial Agents

强化学习成帮凶，对抗攻击LLM有了新方法

事物都有多面性，正如水，既能载舟，亦能覆舟，还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手，还能帮助 DeepSeek-R1 获得强大的推理能力，但它也可能被恶意使用，成为攻击 AI 模型的得力武器。

近日，威斯康星大学麦迪逊分校的一个研究团队发现，可以通过强化学习对模型实施有效的黑盒逃避攻击（Black-Box Evasion Attacks）。研究团队表示：「从安全角度来看，这项工作展示了一种强大的新攻击媒介，即使用强化学习来有效且大规模地攻击机器学习模型。」

论文标题：Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
论文地址：https://arxiv.org/pdf/2503.01734

下面我们就来简单看看这项研究。

首先，为什么要研究如何攻击模型？答案自然是为了安全。

现在 AI 发展迅猛，各种应用层出不穷，并且已经给许多领域带来了巨大变革。而随着应用的普及，攻击这些模型也渐渐开始变得有利可图，其中一类攻击方式是：生成能够欺骗 AI 模型的输入，从而绕过安全过滤器。这个领域被称为对抗机器学习（AML），研究的是能针对目标模型生成对抗样本的算法。

现有的 AML 通常使用优化算法来最小化施加到输入的变化（称为扰动），使得受害者机器学习模型对带有扰动的输入进行分类时会犯错。不过，技术社区对模型防御和对抗能力的理解依然有限。

对抗样本生成算法依赖基于梯度的优化，该优化与任何其他信息无关。这些方法无法利用从以前的攻击中获得的信息来改进对其他数据的后续攻击。

这是 AML 研究中的一个空白，即研究对抗样本是否可以学习 —— 攻击的有效性和效率是否会随着经验的积累而提高。那么，对受害者模型访问权限有限（称为黑盒访问）的对手能够大规模生成对抗样本（例如分布式拒绝服务攻击）吗？

将强化学习引入对抗攻击

考虑到最近强化学习的成功，该团队猜想能否将 AML 对手建模为强化学习智能体 —— 这样一来，或许能让攻击策略随着时间而变得越来越高效和有效。

他们按照这个思路进行了研究，提出了基于强化学习生成对抗样本的攻击方法并对其进行了评估。

他们发现，当把对手建模成强化学习智能体时，其就能学习到哪些扰动最能欺骗模型。一旦学会了策略，对手就会使用该策略生成对抗样本。因此，对抗性智能体无需昂贵的梯度优化即可完成对模型的攻击。

具体来说，该团队将对抗样本生成过程建模成了马尔可夫决策过程（MDP）。如此一来，便可以轻松地使用强化学习，实现对攻击的底层语义的封装：输入样本和受害者模型输出为状态，扰动为动作，对抗性目标的差异为奖励。

该团队提出了两种强化学习攻击方法：RL Max Loss 和 RL Min Norm。它们对应于两类传统的 AML 算法。

其攻击流程是这样的：首先使用一个强化学习算法来训练智能体，然后在策略评估设置中使用攻击来生成对抗样本。

实验评估

为了验证强化学习攻击方法的有效性，该团队在 CIFAR-10 图像分类任务上，使用一个 ResNet50 受害者模型进行了评估，使用的算法是近端策略优化（PPO）。该团队在此框架下进行多步骤评估，评估内容包括 (a) 学习、(b) 微调和 (c) 相对于已知方法的准确度。

首先，他们评估了强化学习智能体能否学习对抗样本。换句话说，强化学习能否在训练过程中提高对抗样本的有效性和效率？

结果发现，RL Max Loss 和 RL Min Norm 攻击都会增加训练过程中的平均回报，从而验证了强化学习技术学习任务的能力。

在整个训练过程中，对抗样本的产生速度平均提升了 19.4%，而与受害者模型的交互量平均减少了 53.2%。

这些结果表明，通过高效地生成更多对抗样本，智能体可在训练过程中变得更加强大。

接下来，他们还分析了 RL Max Loss 和 RL Min Norm 中的奖励和转换超参数会如何影响对抗样本。

ε 参数控制的是 RL Max Loss 智能体在给定输入上允许的失真量。c 参数控制的是 RL Min Norm 智能体因降低受害者模型置信度而不是最小化失真而获得奖励的程度。

虽然训练智能体可以提高这两种攻击的性能，但他们的研究表明这也取决于 ε 和 c 的选择。具体实验中，他们根据平衡对抗性目标的敏感性分析选择了 ε = 0.5 和 c = 1.0。当对手使用这些攻击时，为了达到预期目标，必须在攻击之前考虑它们。

最后，该团队还评估了经过训练的智能体如何将对抗样本泛化到未见过的数据，以及它相对于广泛使用的基于优化的 SquareAttack 算法的表现如何。

在训练外的未见过的数据集上，训练后的智能体的错误分类率、中位数查询和对抗样本的平均失真都落在训练对抗样本的分布中。

在与 SquareAttack 的黑盒比较中，他们将 5000 episode 的强化学习攻击与其它 SOTA 技术进行了比较，结果表明学习对抗样本让强化学习攻击能够生成多 13.1% 的对抗样本。

这些结果表明，如果对手通过强化学习方法学习对抗样本，会比现有方法更有效。

你怎么看待这项研究，我们又该怎么防御对手的强化学习攻击呢？

#SGLang

当开源创新遇上推理革命,SGLang如何炼就DeepSeek最强开源推理引擎？

2025 年开年，DeepSeek R1 和 V3 重磅发布，其超强的语言建模与推理能力，引爆了全球 AI 社区。与此同时，一个隐藏在超大规模模型身后的技术命题浮出水面：如何让千亿参数超大规模 AI 模型真正达到商业级推理速度？这一问题的答案，隐藏在推理引擎 SGLang 的代码仓库中。该项目由 LMSYS Org 发起，并受到 xAI、NVIDIA、AMD 等巨头的青睐，正在通过多项关键技术突破，重新定义 LLM 推理的效率边界。

从 DeepSeek 模型发布当天便实现最佳适配，到长期稳居 SOTA 性能榜首，SGLang 的进化轨迹揭示了一个开源项目的硬核生存法则：用工程创新，攻克开发者最棘手的性能瓶颈。

通过领先的 Multi-head Latent Attention Optimzation、Data Parallelism Router、Eagle Speculative Decoding 等等技术方案，SGLang 长期保持开源模型顶尖的推理速度和吞吐量。

但是，SGLang 的征程绝不止步于此。当 Agent 的工程师们用其部署智能体时，当开发者在 NVIDIA Triton 内核中融入其优化策略时，当全世界的研究者高强度使用 DeepSeek 本地部署时，这个项目的真正价值正在显现：它不仅是长期领先的推理引擎，更是开源社区集体智慧的结晶。本文将从核心技术突破、系统级优化到开发者生态，解码 SGLang 独到的进化之路。

一、DeepSeek 模型持续优化，架构适配的工程实践

image credit: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

自从 DeepSeek V2 发布以来，SGLang 团队针对 DeepSeek 系列模型的 MLA（Multi-head Latent Attention）架构进行了深度优化。这些技术覆盖了数据并行注意力（Data Parallelism Attention）、多节点张量并行（Multi Node Tensor Parallelism）以及块级 FP8 量化（Block-wise FP8），从而在解码计算、显存管理和多节点协同等多个环节实现了突破性提升。

对于 Multi-head Latent Attention（MLA）的优化，团队通过使用权重吸收重新排列计算步骤，在保证模型表达能力的前提下，平衡了计算与内存访问负载，降低了解码过程中的冗余计算，降低了 MLA 在 Decode 过程中的计算量。在此基础上，针对 MLA 解码核仅保留一个 KV 头的设计，SGLang 团队开发了 Triton 解码核优化方案。该方案通过在同一计算块内同时处理多个 query 头，显著减少了对 KV Cache 的内存访问需求，从而加速了解码流程。此外，团队结合 W8A8 FP8、KV Cache FP8 量化技术，并开发了 FP8 批量矩阵乘法（BMM）算子，实现了 MLA 高效的 FP8 推理。值得一提的是，MLA 与 Mixture-of-Experts（MoE）模块均已兼容 CUDA Graph 和 Torch.compile，能够进一步降低小批量推理时的延迟。经过这些综合优化，DeepSeek 系列模型在输出吞吐率方面较上一版本实现了最高达 7 倍的加速效果。

面对高并发和大批量数据的实际应用需求，团队进一步在 MLA 注意力机制中引入了数据并行注意力技术。该方案通过将不同类型的 batch（包括 prefill、decode、extend 以及 idle 状态）分别分配给各个数据并行工作单元，使得各单元能够独立处理各自任务。待任务完成后，在 Mixture-of-Experts（MoE）层前后再进行必要的同步操作，从而显著降低了 KV Cache 的重复存储负担，优化了内存使用，并支持更大批量请求的高效处理。该优化专为高 QPS（Queries Per Second）场景设计，用户在使用 DeepSeek 系列模型时可通过命令参数 --enable-dp-attention 一键启用这一功能。

在单节点内存受限的情况下，SGLang 团队还推出了多节点张量并行技术。该方案允许将超大规模模型（如 DeepSeek V3）跨多个 GPU 或节点进行参数分区部署，有效突破单节点内存瓶颈。用户可以根据实际资源情况，在集群环境中灵活配置多节点张量并行，确保模型在高负载场景下依然能保持高效推理和资源利用率。

为了在推理过程中进一步平衡数值精度与计算效率，团队还开发了块级 FP8 量化方案。在激活值量化方面，采用 E4M3 格式，并通过对每个 token 内 128 通道子向量进行在线 casting，实现动态缩放，从而确保量化后激活值的数值稳定性；而在权重量化上，则以 128×128 块为基本单元进行处理，使得量化过程更为精细，有效捕捉权重分布特性。这一方案已在 DeepSeek V3 模型中默认启用，为模型在高效推理的同时保持较高精度提供了有力保障。

在如此极致的优化之下，SGLang 团队实现了从解码计算到内存管理、从单节点优化到跨节点协同的全方位提升。这些技术创新使得 SGLang 在 DeepSeek 模型在保持高精度的基础上，其输出吞吐率最高可达 7 倍提升，并在高并发和大规模部署场景中展现出卓越的性能和灵活性。更多详细技术信息及使用案例，请参阅官方 Blog 与相关技术演示文稿。

二、Zero-Overhead Batch Scheduler：调度器的效能革命

在传统推理引擎中，尽管大模型的推理主要依赖 GPU 运算，但 CPU 仍需承担批调度、内存分配、前缀匹配等大量工作。未经充分优化的推理系统往往会将多达一半的时间耗费在这些 CPU 开销上，严重影响整体性能。SGLang 一直以高效的批调度器著称，而在 0.4 版本中，团队进一步突破，实现了近乎零开销的批调度器。

这一技术的核心在于将 CPU 调度与 GPU 计算重叠执行。具体来说，调度器提前一批运行，在 GPU 执行当前任务的同时，便同步准备好下一批所需的所有元数据。这样一来，GPU 始终处于忙碌状态，无需等待 CPU 的调度结果，成功隐藏了诸如匹配 radix cache 等较为昂贵的操作的开销。通过 Nsight profiling 工具的测试显示，在连续五个解码批次中，GPU 全程保持高负载，未出现任何空闲时段（注：该测试基于 Triton attention 后端，FlashInfer 后端将在后续版本中进一步优化）。

借助这一优化，SGLang v0.4 能够充分挖掘 GPU 的计算潜力，在 batch size 显著的情况下，实现了相较于上一版本的明显提升。尤其在小模型和大规模张量并行场景下，这一优化效果尤为明显。该近零开销批调度技术已默认启用，用户无需额外配置，即可享受性能上的显著提升。

三、多模态支持：视觉与语言的协同加速

在多模态应用场景中，SGLang 持续与国内外顶尖的多模态技术团队深度合作，将先进的视觉与语言处理能力无缝集成到 SGLang 中。现有方案使得系统能够同时应对单图像、多图像以及视频任务，实现了在三大计算机视觉场景中的先进性能，为后续多模态应用奠定了坚实基础。

在实现上，SGLang 支持通过 OpenAI 兼容的视觉 API 提供服务。该接口能够处理纯文本输入，还可以接受交错文本、图像和视频的混合输入，满足复杂应用场景下多模态数据的协同处理需求。用户无需额外开发，即可通过统一的 API 调用体验多模态推理的便捷与高效。

官方提供的 benchmark 结果显示，在 VideoDetailDescriptions 和 LLaVA-in-the-wild 数据集上，集成后的多模态模型在保证推理准确性的同时，相较于 HuggingFace/transformers 的原始实现，性能最高可提升 4.5 倍。这一加速效果得益于 SGLang Runtime 的高效调度和轻量化设计，使得系统在处理多类型数据时始终能够保持较高的吞吐率。

目前为止，SGLang 已经在多模态支持方面展示了卓越的兼容性和扩展能力，后续还将邀请更多开发者重构相关代码并且进行更多模型乃至最新的 cosmos 世界模型和 -o 流式模型的支持。通过交互式的文本、图像和视频输入，SGLang 不仅大幅提升了多模态任务的处理效率，同时也为实际应用场景下的复杂数据协同计算提供了有力的技术保障。更多详细的使用方法和性能数据，请参考官方技术文档及 benchmark 报告。

四、X-Grammar：结构化生成的范式重构

在约束解码领域，SGLang 利用了 XGrammar 系统在结构化生成方面更是实现了全新的范式重构，显著突破了传统约束解码的性能瓶颈。

在上下文扩展方面，XGrammar 针对每条语法规则增加了额外的上下文信息检测，从而有效减少了与上下文依赖相关的 token 数量。这一改进使系统在处理复杂语法时能够更早识别并利用规则隐含的语义信息，从而降低了解码过程中不必要的状态切换开销。

为了高效管理多条扩展路径产生的执行状态，XGrammar 采用了基于树结构的数据组织方式，构建了持久化执行栈。该设计不仅能够高效地管理多个执行栈，还可以在面对拆分与合并操作时保持数据结构的稳定性和高效性，确保整个解码流程始终流畅运行。

在下推自动机结构优化方面，XGrammar 借鉴了编译器设计中的内联优化和等价状态合并技术，对自动机中的节点进行精简。通过减少不必要的状态节点，系统能够更迅速地完成语法规则的匹配与转换，从而显著提升了解码效率。

此外，为充分发挥多核 CPU 的计算能力，XGrammar 对语法编译过程进行了并行化处理。语法规则的编译任务被分配到多个 CPU 核心上同时执行，不仅大幅缩短了编译时间，也为后续多任务解析提供了坚实的基础。

综合上述各项优化措施，XGrammar 技术的集成，使 SGLang 在 JSON 解码等约束解码任务上实现了 10 倍的加速效果。在处理复杂结构化数据和工具调用场景时，XGrammar 不仅大幅降低了解码延迟，还为大规模在线服务提供了可靠的性能保障。

有关 XGrammar 的进一步介绍，SGLang 团队已在官方博客中进行了深入探讨，相关技术文档可供参考。

五、Cache-Aware Load Balancer：智能路由的架构突破

在 SGLang v0.4 中，引入了独出心裁的全新 Cache-Aware Load Balancer，为大模型推理系统提供了智能路由的架构突破，全部以 Rust 编写，相比于 Python 大幅减少 Service Overhead。该负载均衡器采用基于字符级前缀匹配的路由算法，通过合并后的 Radix Tree 实现无需 Tokenization 的匹配。系统能够根据各工作节点的前缀 KV 缓存命中率进行动态评估，并自动选择缓存命中率较高的节点来处理请求。与传统的轮询调度方式相比，此方案在实际测试中展示了最高可达将近两倍的吞吐量提升，以及将近四倍的缓存命中率改进。随着工作节点数量的增加，这种优势更为明显，充分体现了负载均衡策略在多节点分布式部署中的扩展性。

为了有效管理缓存资源，SGLang 的负载均衡器内部引入了懒更新的 LRU 淘汰策略，对近似 Radix Tree 中访问频率较低的叶子节点进行定期清理，从而防止内存过度膨胀并保持树结构的高效性。此举不仅优化了内存使用，还为整个推理系统带来了更稳定的缓存性能。在分布式部署场景下，系统通过 HTTP 接口实现了秒级动态扩缩容，允许在集群中快速增减工作节点。得益于这一智能路由设计，SGLang 在多节点集群中的吞吐性能呈现出近线性的扩展趋势，为大规模在线服务提供了坚实的性能和可靠性保障。

六、开发者工具链

在可用性和易用性方面，SGLang 提供了与 OpenAI API 兼容的接口层，支持 Chat、Completions、Embeddings 等常见功能，开发者仅需替换端点即可快速无缝迁移。对于更灵活的部署方式，离线引擎模式（Offline Engine）允许单脚本同时驱动多节点推理，无需独立服务化，从而大幅简化了运维成本。

为了让开发者能够深入了解模型状态并进行精细调优，SGLang 内置了 Prometheus 监控集成，实时追踪吞吐量（Throughput）、延迟（Latency）和显存使用（GPU Memory Pressure）等核心指标；多 LoRA 动态加载（Dynamic LoRA Switching）则让同一服务可在显存复用率高达 90% 的情况下，热切换多个不同的 LoRA 适配器（Low-Rank Adaptation）；而约束解码（Constrained Decoding）提供了 JSON、GBNF 等格式的强制校验能力，将生成错误率降至极低水平，满足生产场景对输出格式的一致性要求。

七、社区与未来规划

目前，SGLang 在全球范围内已经汇聚了 30 余位核心贡献者。在接下来的 2025 H1 阶段中，团队将致力于完善实战场景下的 PD 分离、Speculative Decoding 的长文本优化、推动多级缓存（GPU/CPU/Disk）策略落地，并继续强化并行策略以适配千亿级 MoE 模型。除开本身推理效果的优化，SGLang 团队也将致力推理引擎的广泛落地，继续支持 RAG、multi-Agent、Reasoning、RLHF 等等领域的 AI 落地。最后，SGLang 也将在算子覆盖率与性能上持续优化，支持更多的更广泛的硬件，力争为开源社区提供更加先进的一站式大模型推理方案。

八、新的一年，与社区共赴星辰大海

开源一周年，SGLang 的成长轨迹印证了一个技术真理：顶尖的工程实践，永远诞生于开发者社区的协作共振。从首个支持 Prefix Cache 的推理框架，到斩获 11K Star、月均 10 万下载量的开源明星；从 xAI、NVIDIA、AMD 等巨头的深度集成，到为 DeepSeek 模型的最佳开源推理引擎 ——SGLang 的每一次技术突破，都源于社区开发者的真实需求与共创智慧。

在 SGLang 的代码仓库中，200+ 社区贡献不仅带来了 Multi-head Latent Attention、Block-wise FP8 等核心创新，更催生了开发者工具链的全面进化：支持多模态的视觉语言模型、热切换 LoRA 的显存复用、JSON 结构化生成的极速校验…… 这些能力背后，是三十余位核心贡献者与数百开发者的技术接力。正如 LMSYS Org 组织秉持的核心理念，技术生态的繁荣，从不是单打独斗的奇迹。当我们看到 SGLang 在 DeepSeek-R1 上实现狂飙式吞吐，在 128k 长文本中达到超低延迟，这不仅是框架的胜利，更是开源社区 “百花齐放” 的明证 —— 从 LinkedIn 的分布式部署实践，到 NVIDIA 的 Triton 内核优化，再到普通开发者提交的数百个性能调优 PR，每个参与者都在为大模型落地这一终极目标添砖加瓦。

一枝独秀不是春，百花齐放春满园。SGLang 的开源故事，正在诠释一个属于开发者的黄金时代：在这里，工程师的每一行代码都可能影响数百万用户的体验，研究者的每个创意都有机会重塑技术边界。SGLang 团队也诚邀每一位感兴趣的朋友加入社区，参与 Slack 与 Github 上的技术讨论，在全球 Meetup 中分享实战洞察 —— 因为下一个改变行业的优化方案，或许就诞生于你的一次 git commit。

GitHub 仓库: https://github.com/sgl-project/sglang
Slack 社区：slack.sglang.ai
DeepSeek 优化指南: https://docs.sglang.ai/references/deepseek.html

立刻体验最新版本的 SGLang，让大模型推理再上新台阶！

#大语言模型推理的综述

25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。

要实现人类水平的智能，需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策，但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大语言模型 (LLM) 擅长快速决策，但缺乏复杂推理的深度，因为它们尚未完全接受真正系统 2 思维的逐步分析特征。最近，像 OpenAI 的 o1/o3 和 DeepSeek 的 R1 这样的推理 LLM 在数学和编码等领域表现出专家级的表现，与系统 2 的深思熟虑推理非常相似，并展示类似人类的认知能力。

本概述首先简要概述基础 LLM 的进展和系统 2 技术的早期发展，探讨它们的结合如何为推理 LLM 铺平道路。其讨论如何构建推理 LLM，分析其特性、实现高级推理的核心方法以及各种推理 LLM 的演变。此外，还概推理基准，对代表性推理 LLM 的性能进行了深入比较。

要达到人类水平的智能，需要完善从系统 1 到系统 2 推理的过渡 [1]–[5]。双-系统理论认为，人类认知通过两种模式运作：系统 1 快速、自动、直观，能够以最小的努力做出快速决策；系统 2 速度较慢，更具分析性和深思熟虑 [6]，[7]。虽然系统 1 对于日常任务很有效，但它容易产生认知偏差，尤其是在复杂或不确定的情况下，从而导致判断错误。相比之下，系统 2 依赖于逻辑推理和系统思维，从而做出更准确、更合理的决策 [8]–[11]。通过减轻系统 1 的偏差，系统 2 提供一种更精细的问题解决方法 [12]–[15]。

基础大语言模型 (LLM)1 的开发标志着人工智能 (AI) 的一个重要里程碑。 GPT-4o [16] 和 DeepSeek-v3 [17] 等模型在文本生成、语言翻译和各种感知任务中表现出色 [18]–[28]。这些模型在大量数据集上进行训练并采用高级算法，在理解和生成类似人类的反应方面表现出色。然而，基础 LLM 的运作方式类似于系统 1 推理，依赖于快速、启发式驱动的决策。虽然它们在提供快速响应方面表现异常出色，但在需要深度、逻辑分析和复杂推理任务精确性的场景中，它们往往达不到要求。这种限制在涉及复杂问题解决、逻辑分析或细微理解的情况下尤其明显，因为这些模型尚未达到人类的认知能力。

相比之下，推理 LLM 代表语言模型演变的重大进步。 OpenAI 的 o1/o3 [29]、[30] 和 DeepSeek 的 R1 [31] 等模型旨在模拟与系统 2 思维相关的较慢、更慎重的推理。与基础 LLM 不同，推理 LLM 配备逐步处理信息的机制，从而使其能够做出更准确、更合理的决策。从快速思考、直觉过程转变为更有条理、推理驱动的模型，推理 LLM 能够以专家级表现处理复杂任务，如高等数学 [32]–[37]、逻辑推理 [38]–[44] 和多模态推理 [45]–[47]，展现出类似人类的认知能力。因此，人们越来越多地认为推理 LLM 能够实现曾经被认为超出 AI 能力范围任务所需的深度逻辑思维。如图显示推理 LLM 的近期时间表。

本综述全面概述推理 LLM 开发中涉及的关键概念、方法和挑战，其结构如图所示：

推理 LLMs 的基础如下。

基础 LLM

随着 2018-2019 年预训练 Transformers [18] 的引入，基础 LLM 的发展取得重大进展，尤其是通过 BERT [19] 和 GPT [21]。这些模型利用对大量文本语料库的无监督预训练，然后针对特定任务的应用程序进行微调。这种方法使他们能够在专注于情绪分析、实体识别和问答等任务之前发展广泛的语言理解。BERT 的双向上下文处理提高单词理解能力，而 GPT 凭借其单向设计在文本生成方面表现出色。

2019 年发布的 GPT-2 [22] 拥有 15 亿个参数，标志着生成性能的重大飞跃，尽管它也引发道德问题。 GPT-3 [23] 拥有 1750 亿个参数，进一步展示无监督预训练的强大功能，在少样本学习中表现出色，并在各种 NLP 任务中表现出色。在随后的几年中，出现 CLIP [60] 和 DALL-E [61] 等多模态模型，它们集成文本和视觉输入。这些模型实现新的任务，例如从文本生成图像，并增强人机交互。

到 2023-2024 年，GPT-4/4o [16]、[62]、LLaMA [25] 和 LLaVA [27] 等模型展示推理、上下文理解和多模态推理方面的先进能力，可处理文本和图像 [63]–[65]。 DeepSeek-V3 [17] 采用 671B 混合专家架构 [66]–[68]，在关键基准测试中优于其他几种 LLM，同时在效率和处理速度方面也有显著提升。基础 LLM 的发展彻底改变人工智能，使语言理解、问题解决和人机协作方面能够实现更复杂的应用。

摘要：基础 LLM 的发展已经从 BERT 等预训练 Transformer 发展到 GPT-4 等多模态模型，增强语言理解、文本生成和图像处理。这一进步带来人工智能的重大突破，提高语言理解、问题解决和人机交互能力。基于深度学习的进步 [18]、[69]–[83]，基础 LLM 可以从大量文本或多模态数据中学习广泛的世界知识和语义关系。这使得它们能够展现出上下文学习 (ICL) [84]、[85]、提示工程 [86]、[87] 和思维链 (CoT) 推理 [2] 等新兴能力，从而显著提高它们的适应性和创造性解决问题的能力。

尽管取得这些进展，基础 LLM 的运作方式与系统-1 推理类似，依赖于快速、启发式驱动的决策，缺乏系统-2 的逐步分析特征。然而，它们的发展为未来的推理 LLM 奠定坚实的基础——尤其是与早期的系统-2 技术相结合时。这种结合为更通用、更灵活、更像人类的推理模型铺平道路。

符号逻辑系统

符号逻辑系统标志着人工智能的早期阶段，利用规则和逻辑原理来表示知识并得出结论 [88]，[89]。它们在结构化领域特别有效，在这些领域中，形式逻辑可以确保准确性。

Prolog 是一种基于一阶逻辑的逻辑编程语言，允许用户定义事实、规则并通过查询进行推理。它在符号推理系统中起着关键作用，尤其是在 NLP 和专家系统中 [90]–[92]。基于逻辑的系统（如 Prolog）采用命题和谓词逻辑进行形式推理 [93]，[94]。从 20 世纪 60 年代到 20 世纪 80 年代初，这种方法主导人工智能，IBM 的 LISP [95] 等系统用于符号计算，解析定理证明器 [96] 用于自动推理。 20 世纪 70 年代，马文·明斯基 (Marvin Minsky) 提出框架理论，将知识组织成结构化框架，对专家系统和认知科学都产生影响 [97]。

摘要：符号逻辑系统是早期人工智能发展的关键里程碑。它们基于形式逻辑，在解决定义明确的问题方面表现出色，尤其是在结构化环境中。然而，它们也暴露僵化的规则系统的局限性。尽管存在这些限制，符号逻辑仍然是人工智能进步的基础。

推理 LLM 的最新进展，通过复杂的思维架构（称为宏动作框架）大大增强对类人系统-2 认知过程的模拟。通过将符号模板或规则与基础 LLMs 相结合，宏动作显著提高其推理能力。将宏动作融入基础 LLMs 已经改变它们处理复杂推理任务的能力，因为分层规划允许模型在深入研究特定问题细节之前做出高级决策，反映符号逻辑的结构化方法。

蒙特卡洛树搜索

MCTS 是一种基于模拟的决策和规划搜索算法 [98]。它通过四个步骤构建搜索树：选择，使用 UCB1 公式选择优先级最高的子节点；扩展添加新节点，模拟执行随机滚动以评估它们，反向传播更新节点统计信息。MCTS 已广泛应用于围棋等棋盘游戏中的策略优化 [99] 和机器人路径规划等任务，它可以帮助机器人有效地导航动态环境 [100]。

摘要：MCTS 在推理 LLM 的开发中发挥至关重要的作用，特别是在结构搜索中。通过模拟潜在的未来推理路径和反向传播估计的奖励，MCTS 可帮助基础 LLM 有效地识别最有希望的高奖励路径。这个过程反映类似人类的规划，在采取行动之前会考虑决策的未来后果。通过动态探索多种推理轨迹，MCTS 可使模型避免陷入次优路径，从而更轻松地驾驭复杂的决策空间。这种集成显著增强 LLM 处理复杂和动态推理问题的能力，例如需要长期规划或多步逻辑推理的问题。它使 LLM 能够做出更具战略性和更明智的决策，从而提高其在涉及细微推理和战略探索任务中的整体表现。

强化学习

RL 是一种机器学习，其中智体通过与环境交互并以奖励的形式接收反馈来学习做出决策，旨在随着时间的推移最大化累积奖励 [101]。RL 的早期突破，例如 Q-学习 [102] 和 DQN [103]，通过使用深度神经网络 (DNN) [104] 处理复杂的状态空间，彻底改变该领域。这些方法为将 RL 扩展到现实世界的任务铺平道路，而传统的表格方法则无法满足这些任务的需要。深度 RL 的出现标志着向前迈出重要一步，它将深度学习与 RL 的强大功能结合起来，以处理高维输入，例如图像和非结构化数据。

深度 RL 的一个里程碑式成就是 AlphaGo，它通过自我对弈在复杂的围棋游戏中击败世界冠军，展示 RL 的潜力 [105]。这一成功凸显深度 RL 在具有巨大、连续动作空间和不确定性的环境中蓬勃发展的能力。在此基础上，AlphaZero 通过自对弈、MCTS 和 DNN 掌握多种棋盘游戏（国际象棋、围棋和将棋），从而改进该方法 [106]。AlphaZero 能够完全从头开始学习，无需人类的先验知识，展示强化学习在需要长期战略和规划的环境中的能力。

AlphaStar 通过在实时战略游戏《星际争霸 II》中表现出色，进一步拓展深度强化学习的界限。与棋盘游戏不同，《星际争霸 II》呈现动态、部分可观察的环境，需要多步骤、实时决策 [107]。AlphaStar 在这一领域的成功证明深度强化学习能够适应需要战略规划和战术执行的复杂决策场景。强化学习和深度强化学习的这些进步极大地扩展人工智能的潜力，从定义明确的静态环境转变为需要持续学习和适应的动态复杂环境。

摘要：深度强化学习已被证明在解决复杂的决策任务方面非常有效。AlphaGo 通过自我对弈学习策略并击败围棋世界冠军，就是一个例证。这种自我对弈概念为推理 LLM 中的自我改进技术奠定基础，两者都依赖于持续反馈和调整来优化策略。

在强化学习中，奖励塑造至关重要，尤其是对于多步骤推理任务 [108]。通过调整奖励信号以在中间步骤中提供更细粒度的反馈，它可以帮助智体导航复杂的决策路径。这个概念启发奖励建模的发展，特别是推理 LLM 中的过程奖励模型。该模型提供分步监督来识别和纠正推理过程中的错误。通过模仿人类推理，过程奖励模型可确保更稳健、更可解释的结果，尤其是在数学问题解决和代码生成等任务中，其中分步评估至关重要。

此外，强化学习本身也是推理 LLM 的强大工具。通过奖励机制，强化学习可以引导基础 LLM 找到最优解，尤其是在动态推理问题中。它的简单性和效率使强化学习在训练和优化推理 LLM 方面具有不可估量的价值，增强 AI 模型的智能性和自我进化能力。正如 DeepSeek-R1 [31] 所展示的那样，强化学习的集成已导致推理 LLM 取得重大进展，提供更灵活、更高效的解决方案。

推理 LLM 的蓝图如下。

如图显示传统推理模型和推理 LLM 的全面比较：

推理 LLM 的特征分析

输出行为视角

探索和规划结构：最近的实证研究表明，推理 LLM 在其输出结构中表现出强烈的探索性行为倾向，尤其是与主要依赖传统 CoT 推理方法的 WizardMath [109] 和 DeepSeekMath [110] 等模型相比时。这种探索性行为在制定新假设和寻求替代解决方案路径方面显而易见。[49] 的研究表明，慢思考模型参与潜在的生成过程，在预测后续 token 时尤其明显。[31] 支持这一说法，它观察到在 RL 规模训练期间自然会出现类似的行为。此外，Quiet-STaR 框架 [111] 引入一个辅助预训练阶段，专注于下一个 token 预测，强调内部审议和探索机制在内容生成之前的关键作用。总的来说，这些发现强调高级 LLM 中推理过程的复杂性和动态性，强调其操作框架内探索与结构化推理之间的相互作用。

验证和检查结构：对 OpenAI 的 o1 [29] 和 o3 [30] 模型的分析表明，它们的推理框架既包含长期战略规划的宏观层面行动，也包含微观层面行动，包括“等待”、“稍等”、“或者”和“让我们暂停一下”。这些微观操作有助于细致的验证和迭代检查过程，确保任务执行的准确性。这种双层方法强调模型在总体目标和细粒度、面向细节操作之间取得平衡的能力，从而增强模型的整体功能和可靠性。为了模仿这一特性，Marco-o1 [112] 在构建 Long-CoT 的 MCTS 过程中，为每个树节点分配“等一下！我可能犯了一些错误！我需要从头开始重新思考”的状态，从而促进 Long-CoT 的反思性。Huatuo-o1 [113] 采用多智体框架来解决验证过程中生成错误 CoT 的问题。这是通过结合带有“回溯”和“纠正”功能的提示来实现的，这使得纠正过程成为可能。

更长的推理长度和时间：最近的研究 [49]–[52]、[114] 表明，推理 LLM 通常会生成超过 2000 个 tokens 的输出来解决复杂的编码和数学问题。然而，这种延长的输出长度有时会导致过度思考，模型会在问题上花费过多的时间，而不一定能改进解决方案。研究 [49] 强调，虽然自回归生成和经典 CoT 可以有效解决较简单的问题，但它们在处理更复杂的任务时会遇到困难。研究 [115]、[116] 表明，在多模态领域，许多问题需要仔细观察、比较和思考。此外，Search-o1 [117] 表明，慢思考机制在需要外部知识或出现潜知识冲突的领域特别有益。在医疗场景中，复杂问题（例如需要测试-时间规模化技术的问题）表现出显着的改进 [52]。

过于谨慎和简单的问题陷阱：目前，推理 LLM 在竞争级数学 [31]、[54]、[118]、[119]、复杂编码 [120]、医学问答 [52]、[113] 和多语言翻译 [112]、[121] 等领域表现出色。这些场景需要模型对问题进行细粒度分析，并根据给定的条件执行仔细的逻辑推理。有趣的是，即使对于像“2 + 3 =？”这样的简单问题，推理LLM也会表现出过度自信或不确定性。最近的研究[122]指出，o1 类模型倾向于为较简单的数学问题生成多轮解决方案，通常会探索不必要的路径。这种行为与较简单问题缺乏多样化的探索性行动形成鲜明对比，表明模型的推理过程可能效率低下。

训练动态视角

惊人的数据效率：与专注于扩展具有均匀分布难度级别的指令集的传统方法不同，研究[52]，[54]表明，构建以难样本为重点的慢思考 CoT 数据集，可以在医学和数学等领域实现更好的泛化。这种方法不同于收集多样化和均匀分布指令数据集的传统做法。

稀疏训练方法：与传统观点相反，有效推理 LLM 的开发不需要大量数据集或密集的奖励信号。例如，STILL2 [51] 仅使用 5,000 个蒸馏样本就表现出令人印象深刻的性能，而 Sky-T1 [119] 仅使用 17,000 个 LongCoT 样本就实现了与 QwQ [118] 相当的性能。同样，RedStar [54] 仅使用 4,000 个核心 LongCoT 样本在文本和多模态任务中都取得了出色的结果。与简单的 CoT 相比，慢思考监督微调 (SFT) 数据表现出出色的样本效率，通常仅使用 1/100 的样本量就能提供相当的结果。此外，研究 [123] 强调在线 RL 规模化算法的巨大训练潜力，表明非密集 RL 监督甚至基于规则的奖励结构，足以实现高性能。

参数特征：以 LongCoT 方法为代表的慢速思维，训练 LLM 会导致不同层之间的梯度范数相对均匀。相比之下，以简化的 CoT 方法为代表的快速思维，会在较早的层中产生较大的梯度幅度，同时不同层之间的梯度范数存在显著差异。经验证据表明，较大的模型（尤其是参数超过 300 亿的模型）更适合推理 LLM 训练，因为它们具有增强的复杂推理能力。此外，RedStar [54] 进行的实验表明，数据规模化的好处因模型大小而异，规模化效果在较大的模型中更明显、更有效。Deepseek-R1 的研究 [31] 支持这一发现，该研究表明，6700 亿个参数模型实现的性能指标与 o1 基准非常接近，凸显大型架构在高级推理任务中的可规模化优势。

核心方法

驱动推理 LLM 高级推理能力的核心方法如图所示，包括结构搜索、奖励建模、自我改进、宏动作和强化微调。

结构搜索

推理 LLM 旨在通过模拟人类推理的深思熟虑性质，在解决复杂问题时实现高精度和深度。然而，尽管最近取得进展，但当前的基础 LLM 在处理复杂的推理任务时仍面临固有的局限性。这些限制源于它们缺乏模拟环境状态的内部世界模型、无法预测推理路径的长期结果以及无法根据未来状态或奖励迭代地改进推理步骤 [8]。因此，这些缺点阻碍基础 LLM 在广阔的推理空间中有效平衡探索和利用，从而给需要多步骤推理的任务（例如复杂数学、逻辑推理或战略决策）带来挑战 [139]。

MCTS 是一种强大的搜索和优化算法，它通过提供一个结构化框架来系统地探索和评估推理路径，从而有效地解决这些挑战。它通过构建推理树来运行，其中每个节点代表一个推理状态，动作通过考虑潜在的后续步骤来扩展树。通过模拟未来状态和估计奖励的迭代反向传播，MCTS 允许基础 LLM 有效地识别高奖励的推理路径，从而反映人类的规划过程。这种方法符合推理 LLM 的核心原则，其中彻底的分析和深思熟虑的探索对于生成合理的输出至关重要。最近的方法，如 RAP [14]，通过将 MCTS 与世界模型相结合，增强基础 LLM，使系统能够迭代地改进中间推理步骤并改善未来预测。同样，思维森林（Forest-of-Thought） [125] 利用 MCTS 动态探索多种推理轨迹，重新审视有缺陷的路径并改进结果。

MCTS 在推理任务中的应用已不仅限于传统的问题解决，还扩展到高度专业化的领域。例如，SRA-MCTS [134] 和 MC-NEST [133] 等框架展示 MCTS 在解决代码生成和数学推理等技术挑战方面的实用性，其中中间步骤经过迭代评估和改进。在教学协调等领域，SPaR [127] 和 Marco-o1 [112] 等框架利用 MCTS 来改进响应并使推理轨迹与人类偏好或期望结果保持一致。此外，像 HuatuoGPT-o1 [113] 这样的针对特定任务的实现强调 MCTS 在高度专业化领域（如医学推理）中的关键作用，因为在这些领域中准确性和鲁棒性至关重要。

MCTS 还通过结合动态重访、批评和改进推理步骤的机制，使模型能够超越单次推理方法（如 CoT 或思维树）[131]、[140]。这种迭代能力对于处理具有巨大决策空间的任务或需要长期规划的任务至关重要，因为早期的决策会显著影响最终结果。通过允许 LLM 模拟、评估和改进多种推理路径，MCTS 引入传统方法所缺乏的适应性和战略探索水平。正如 AlphaZero 类树搜索 [124] 和 Search-o1 [117] 所示，MCTS 不仅使推理 LLM 能够在特定任务上取得更好的性能，而且还能在不同领域表现出增强的泛化能力。

MCTS 与 LLM 的集成取决于定义动作和奖励，以指导推理路径探索和评估质量。如表所示，先前工作的动作分为四类：

1）推理步骤作为节点：动作表示中间推理步骤或决策，例如选择规则、应用转换或生成子问题 [14]、[124]、[125]、[139]。
2）token 级决策：动作涉及生成token或序列（例如下一个单词、短语或代码片段）[126]–[128]、[141]。
3）任务特定结构：动作是特定域的，例如在积木世界中移动积木、在几何问题解决中构建几何或在任务规划中修改工作流程[129]，[130]，[142]。
4）自我纠正和探索：行动侧重于重新访问、改进或回溯以改进先前的推理步骤[131]，[132]，[143]。

此外，如表所示，将奖励设计分为五类：

1）基于结果的奖励：奖励侧重于最终结果或解决方案的正确性或有效性，包括推理路径或任务成功的验证[133]，[139]，[142]。
2）分步评估：根据每个步骤的质量或其对最终结果的贡献，在中间步骤分配奖励[14]，[124]，[134]。
3）自我评估机制：奖励依赖于模型自身的信心或自我评估（例如，似然、下一个词概率或置信度得分）[127]，[128]，[135]。
4）特定域的标准：奖励针对特定任务定制，例如几何的对称性和复杂性或文本生成中与人类偏好的一致性[130]，[136]，[142]。

迭代偏好学习：奖励来自对多个解决方案或推理路径的比较，从而动态地指导学习 [112]、[137]、[138]。

摘要：尽管基于结构搜索（即 MCTS）的推理 LLM 具有诸多优势，但由于需要进行大量模拟，因此通常会产生大量的计算开销。这使得它们不太适合需要实时决策或在资源受限情况下运行的任务 [144]。此外，MCTS 的有效性高度依赖于精心设计的奖励机制和动作定义，而这些机制和动作定义在不同领域可能会有很大差异，因此对其通用性提出挑战 [145]。

奖励建模

两种主要的训练范式用于处理多步骤推理任务：结果监督和过程监督。结果监督强调在更高粒度上最终答案的正确性，由此产生的模型称为结果奖励模型 (ORM) [32]、[158]。相比之下，过程监督为解决方案轨迹提供分步标签，评估每个推理步骤的质量。由此产生的模型称为过程奖励模型 (PRM) [37]、[159]、[160]。ORM 和 PRM 之间的主要区别如图所示。

PRM 在复杂推理任务中具有显着优势 [147]、[161]，主要原因有几个。首先，它提供细粒度、分步监督，允许识别解决方案路径中的特定错误。此功能对于 RL 和自动纠错尤其有价值。其次，PRM 与人类推理行为非常相似，人类推理行为依赖于准确的中间步骤来得出正确的结论。与 ORM 不同，PRM 避免不正确的推理仍能得出正确最终答案的情况，从而确保更稳健和可解释的推理。虽然 PRM 主要应用于复杂的数学问题，但它的优势最近推动其他领域的应用。例如，ORPS [155] 利用 PRM 来解决复杂的代码生成挑战，而 Step-DPO [156] 将过程监督与直接偏好优化 (DPO) 算法 [162] 相结合以改进长链数学推理。下表给出奖励建模方法的摘要：

摘要：尽管 PRM 有优势，但也带来一些挑战。主要困难在于获取带有过程监督标记的数据，这通常既昂贵又耗时。为了解决与规模化、效率和准确性相关的问题，研究人员探索各种自动注释方法。例如，MATHSHEPHERD [147] 利用最终答案的正确性，根据中间步骤带来正确结果的可能性来定义中间步骤的质量，从而实现分步数据收集过程的自动化。ReST-MCTS∗ [151] 将过程奖励指导与 MCTS 相结合，通过广泛展开生成更高质量的推理轨迹。同样，OmegaPRM [152] 采用 MCTS 框架，同时引入分而治之算法来自动生成过程监督数据。另一种新方法是使用 ORM 来训练 PRM。Yuan [149] 提出在温和的奖励参数化假设下，利用更便宜数据集上的 ORM 训练来隐式训练 PRM。它们还为这种隐式 PRM 的性能提供理论保证，证明其实用性和成本效益。

除了数据收集之外，PRM 还面临着与可信度相关的挑战 [153]，具体分类如下：

1）缺乏解释：当前的 PRM 通常会在没有足够解释的情况下为推理步骤生成分数，从而限制可解释性并阻碍它们在测试期间改进推理的实用性。
2）训练数据中的偏差：数据收集方法（例如 MCTS）往往会引入分布偏差，为大多数问题分配不成比例的较高分数。因此，PRM 很难有效识别错误的推理步骤。
3）早期步骤偏差：与更接近最终答案的推理步骤相比，PRM 在预测早期推理步骤奖励方面的准确率较低。这个问题源于与推理过程初始步骤相关的随机性和不确定性增加。

自我改进

推理 LLM 体现从弱监督到强监督的进展，而传统的 CoT 微调在有效规模化方面面临挑战。自我改进利用模型的探索能力进行自我监督，逐步提高 LLM 在翻译 [167]、数学 [163]、[168] 和多模态感知 [171] 等任务中的表现。这种方法促进推理 LLM 中的探索和应用 [166]、[184]–[186]。下表总结自我改进方法：

LLM 中基于训练的自我改进可以根据探索和改进策略进行分类。探索阶段侧重于数据收集，以促进后续训练改进，方法有显著差异。 STaR [163] 使用少样本例子进行数据收集，而 ReST [167]、ReST-EM [168] 和 ENVISIONS [169] 则依赖于对完整轨迹的多次采样。Quiet-STaR [111] 在 token 级进行探索，引入元 token 和非近视（non-myopic）损失等概念来增强监督。此外，ReST-MCTS* [151] 和 rStar-Math [166] 通过 MCTS 生成训练数据。

改进策略也表现出明显的多样性。例如，STaR 及其衍生产品（如 V-STaR [164] 和 B-STaR [165]）将过滤与 SFT 相结合。ReST 及其变型通常会引入创新的奖励计算方法，来增强策略模型的 RL 训练。RISE [170] 在改进过程中结合了外部反馈、记录奖励并通过蒸馏来细化响应。值得注意的是，rStar-Math [166] 表明，小型模型已通过自我进化的训练方法实现系统 2 的反思能力。

测试-时自我改进，利用模型内部知识的一致性来纠正推理过程中的幻觉。这些方法可分为三类：使用提示改进答案的方法 [174]、[175]、利用外部工具的方法 [176] 以及利用 logits 而无需外部工具或提示的技术 [182]、[183]。

宏动作

LLM 推动宏动作框架模拟类人系统 2 认知过程的进展。这些结构化推理系统通过引入分层认知阶段（例如战略规划、内省验证和迭代细化），超越传统的 token 级自回归生成。这种方法不仅增强推理的深度，而且拓宽解决方案空间，从而实现更稳健、更多样化的问题解决途径。下表总结宏动作方法：

其中行动类别：AD=分析与分解，IPR=信息处理与推理，VC=验证与纠正，GO=生成与优化，EB=探索与回溯。

将宏动作的进展分为两个方面：

1）通过宏动作操作化进行测试-时间规模化：最近的研究确定两种在推理和测试-时间规模化过程中提高推理性能的关键方法。 HiICL-MCTS [190] 通过种子数据进行精心搜索，生成由宏动作组成的动作链模板，从而促进以动作链为导向的测试-时推理方法。ReasonFlux [192] 采用迭代测试-时规模化框架，利用外部高级思维模板迭代细化和更新当前 CoT。
2）宏动作增强数据合成范式：宏动作在复杂推理中的一个关键应用是推理数据的合成。在数据合成和训练框架中，宏动作架构增强推理的多样性和泛化能力。最近的研究表明，在推理序列中将 CoT 过程与宏动作集成或合成可以显著提高推理链的数据效率。例如，LLaVA-CoT [197] 通过外在化跨多种模态的中间推理步骤来增强 CoT 数据合成。 Atom-Think [199] 使用结构化的 g1 提示 [204] 生成 AMATH-SFT 数据集，与传统的 CoT 方法相比，它在长期推理任务上取得卓越的表现。CoAct [205] 引入一个双智体协作推理框架，其中全局规划体执行总体宏动作，而局部执行智体在这些更广泛的动作中执行特定的子动作。

宏动作在增强自我改进框架方面也发挥着至关重要的作用。rStar-Math [166] 通过代码增强的 CoT 利用高级深思熟虑的搜索，在实现主动搜索能力的同时生成多样化和可靠的解决方案。Satori [206] 将 CoT 与 RL 相结合，结合“”式的宏动作来多样化探索并缓解在线 RL 环境中的策略饱和。Huatuo-o1 [113] 将分层规划与域特定知识库相结合，以改进医学推理。此外，ReasonFlux [192] 动态地重新配置推理模板（例如，将微积分问题分解为符号和数字阶段）以与问题结构保持一致。

强化微调

强化微调 (RFT) [207] 是 OpenAI 最近推出的一项创新技术，旨在使开发人员和工程师能够针对特定域或复杂任务对现有模型进行微调。与一般的 SFT 不同，RFT 专注于通过使用奖励机制来指导模型的演进，从而优化模型的推理过程，这样增强其推理能力和准确性。RFT 的核心在于利用最少的高质量训练数据 [208]、合适的奖励模型 [209] 和长期稳定的优化过程 [210]–[213] 来提高模型在特定领域的性能。下表总结 RFT 方法：

DeepSeek-R1 [31] 采用基于验证器奖励的策略，与 SoS [214] 等传统方法相比，其性能得到显着提升。主要优势包括：

1）简化训练流程：RL 监督简化数据构建和训练过程，无需复杂的逐步搜索机制。
2）增强的规模化：在线 RL 训练有助于在大型数据集上实现高效规模化，特别是对于复杂的推理任务。
3）新兴特性：DeepSeek-R1 [31] 展示独特的新兴能力，例如 Long-CoT 推理，这些能力很难仅通过 SFT 实现。

尽管 RFT 具有诸多优势，但它仍面临以下挑战：

1）推理背后的机制不明确：推动 DeepSeek-R1 推理改进的底层机制仍然不太为人所知。例如，虽然 DeepSeek-R1 表现出涌现特性（例如“突现长度增加”、“顿悟时刻”），但 [242] 等研究表明，像 Long-CoT 这样的功能可能已经存在于基础模型中，而不仅仅是从 RL 训练中出现的。此外，在较小的模型（例如 Qwen-Math-2B/7B [243]）中观察到的性能提升并没有明显的“顿悟时刻”，这使得因果解释变得复杂。

2）奖励模型饱和：许多现有的 RL 算法都面临奖励模型饱和的问题，通常表现为在大约 100 个训练步骤后探索崩溃。虽然 DeepSeek-R1 通过专门的奖励格式缓解了这个问题，但 ReFT [209] 和 Satori [206] 等方法提出交替采样和 SFT 蒸馏来对抗奖励黑客和探索崩溃。

3）不稳定的长 CoT 生成：RFT 生成的长推理链容易出现不稳定，包括上下文溢出、无法返回最终答案以及对奖励塑造的敏感性 [122]。例如，[239] 等方法无意中引入余弦奖励函数，这会随着迭代次数的增加而降低性能。O1-Prune [244] 使用事后长度修剪技术 [215]（通过 RL/SFT）来稳定输出。

RFT 的未来方向可能包括几个令人兴奋和创新的进步，例如：

1）高效稳定的 RL 框架：需要开发更强大的 RL 算法，以防止奖励饱和和探索崩溃。[239] 表明，REINFORCE ++ [245] 与 KL 发散度正则化结合使用时表现不佳，这表明需要替代方法。未来的工作应该在现代 LLM 训练的背景下重新审视经典的 RL 算法，以优化稳定性和效率。
2）扩展 RFT：当前的 RL-监督模型依赖于从大规模数据集中选择的精选、可验证提示。未来的研究应侧重于合成高质量、多样化的提示以提高泛化能力。[240] 表明，仅仅扩展策略/奖励模型或增加样本量会导致收益递减，而扩大 PRM 和 R1 训练数据的范围则更有希望。应该探索混合方法，例如将 RL 与 SFT 或课程学习相结合，以增强规模化。
3）控制长 CoT 稳定性：需要自适应奖励塑造机制来平衡推理长度、连贯性和答案正确性。O1-Prune [244] 等技术证明事后长度正则化的价值，但动态训练控制是必要的。应研究分层 RL 框架，将长推理链分解为可管理的子任务，从而降低不稳定性。
4）理论与实证分析：必须明确 RL 训练与基础模型能力之间的关系。例如，应确定突现属性（例如 Long-CoT）是源自 RL 优化还是基础模型的潜特征。应系统研究奖励设计原则（例如稀疏与密集奖励、多目标平衡），以避免奖励黑客等非预期行为。

摘要：RFT 为推进 LLM 推理提供一个有希望的方向，DeepSeek-R1 [31] 就是明证。然而，奖励饱和、不稳定的长推理链和不明确的突发机制等挑战需要紧急关注。未来的努力应优先考虑算法创新、可规模化的快速综合和理论基础，以充分释放 RL 驱动推理 LLM 的潜力。

推理 LLM 的进化

推理 LLM 的进化经历几个不同的阶段，开发了各种策略来克服直接自回归推理的局限性并构建更先进的慢思考推理架构。

在早期阶段，推理 LLM 主要侧重于使用外部推理算法增强预训练的 LLM，而不改变底层模型参数。诸如思维树 [265] 和规划推理 [14] 之类的方法利用 LLM 驱动的广度优先搜索、深度优先搜索和 MCTS [98]、[125]、[128]、[266] 来模拟类似人类的推理过程。这些方法将推理表示为树或图的遍历，其中中间推理状态被描绘为节点，各种推理策略产生不同的推理路径。最终决定是通过额外的投票机制 [3] 或基于蒙特卡洛的价值估计来确定最佳路径。

然而，这些外化的慢速推理方法带来几个挑战：

有限的探索空间：基于搜索的方法需要对搜索空间的广度、深度和粒度进行预定义约束，这通常会将 LLM 的探索限制在狭窄的推理空间内。此外，同一父节点的不同子节点之间的推理策略通常缺乏足够的多样性，进一步限制了探索。

2）经验共享有限：不同路径之间的探索经验和推理信息只能基于奖励模型或结果之间的自洽性进行评估。此外，基于搜索的方法显著增加计算开销，依赖于奖励模型（如PRM/ORM）进行树修剪或推测解码技术来加速推理。

为了克服这些限制，后续模型（如rSTaR [193]、LLaMAV-o1 [198]、HiICL-MCTS [190]、Mulberry [196]、g1 [204]和Thinking-Claude [267]）引入更丰富的动作空间。这些增强的动作空间提供高级规划线索，拓宽模型的探索范围并实现更全面的结构化搜索过程。然而，这种方法需要精心设计动作空间以确保其有效性。随着 o1 [29] 和 QwQ [118] 等模型的引入，外部推理范式被内化到 LLM 的上下文中。这些模型最初执行探索性宏规划以生成初始推理路径，然后进行替代路径的上下文探索。通过“重思考”和“验证”等机制，这些模型产生规模化的推理链。为了复制这种内化能力，STILL-1 [266] 将树搜索输出线性化为长推理链，具有“重思考”、“等待”和“探索新路径”等属性。同样，STILL-2 [53] 和 sky-T1 [119] 使用蒸馏技术合成长推理链。

然而，从基于搜索方法得出的线性化推理链，很难与蒸馏方法产生的推理链质量相匹配。最近的进展，包括 DeepSeek-R1 [31] 和 Kimi-k1.5 [215]，已经证明 RL 增强 DeepSeek-V3 [17] 等模型的潜力，从而出现复杂的行为，例如长推理链、反思推理和高级规划能力。值得注意的是，这些复杂的行为是通过简单的 RL 规模化实现的。SimpleRL [123] 试图使用精简的流水线和最小的代码库来复制这些功能，而 R1V [234] 则探索基于多模态基础架构的多模态推理模型开发。

摘要：推理 LLM 的发展已经从外部增强推理转变为内部嵌入推理。最近的发展强调基于 RL 规模化释放高级功能的潜力。

推理 LLM 的基准测试如下。

开发一个强大的基准测试对于记录推理 LLM 能力的进步以及确定未来有希望的研究方向至关重要。从三个关键方面回顾基准测试的问题：类别、评估指标和性能比较，同时进行反思和提供见解。

基准测试类别

按任务类型对推理基准测试进行分类，大致可分为数学、代码、科学、代理、医学和多模态推理。这些基准测试的详细统计数据如表所示。

基准测试介绍

数学问题：记录当前流行的竞赛级数学基准测试，以展示推理 LLM 的能力，包括 AIME 2024 [246]、MATH-500 [37]、AMC 2023 [247] 和奥林匹克基准测试 [248]。

2）代码问题：代码问题需要扎实的基础和很强的逻辑思维，用来评估诸如 Codeforces、SWE-bench [249]和LiveCodeBench [250]等推理 LLM 的推理能力。

3）科学问题：科学基准测试，即GPQA Diamond [251]和MMLU-Pro [253]，涉及化学、生物和物理等多领域推理，需要广泛的知识积累和综合推理。

4）智体推理：现实任务通常涉及复杂的规划和工具使用，从而导致智体推理基准测试的创建[268]。例如，WebShop [254]和WebArena [255]专注于Web操作，而SciWorld [256]和TextCraft [257]则以科学研究为中心。

5）医学推理：医学从根本上涉及复杂的推理，涵盖从诊断决策到治疗规划的任务。JAMA Clinical Challenge [258]、Medbullets [258] 和 MedQA [259] 的基准测试提供模拟医生疾病诊断的模型测量。

6）多模态推理：多模态推理，例如 MMMU [260] 和 MathVista [261] 的基准测试，需要结合文本和图像进行跨模态思维。特别是对于那些以视觉为中心的问题，在基准测试 MathVision [262]、MathVerse [269]、CMMaTH [263] 和 PGPS9K [264] 中，对推理 LLM 提出更高的要求。

总结

近年来，LLM 领域发展迅速，基准测试性能不断提高。简单推理基准测试，如 GSM8K [32]、MATH-500 [37] 和 ScienceQA [270]，已接近性能饱和。最近对推理 LLM 的研究表明 [54]、[166]，在这些基准测试中，为长推理链设计的模型表现并没有明显优于为短链设计的模型。这凸显建立新基准测试以更有效地评估推理 LLM 推理能力的迫切需要。此外，当前的基准测试有限，主要侧重于可靠的推理任务。软推理基准测试缺乏明确定义的正确答案，可提供更细致入微的评估，更好地捕捉类人推理的复杂性和微妙之处。此外，解决评估过程中的数据泄露问题至关重要 [271]。确保评估数据的机密性和中立性对于维护基准测试结果的完整性和可靠性至关重要。

评估指标

根据任务类型、技术方案和推理范式，推理 LLM 引入各种评估指标，如图所示。这些指标旨在更准确地评估模型在处理复杂推理任务时的性能，确保有效衡量生成解决方案的质量和连贯性。

任务类型

就基准类别而言，数学推理通常使用两个主要指标：Pass@k 和 Cons@k。Pass@k 指标评估模型在 k 次尝试内生成正确解决方案的能力，衡量在有限次数内成功的可能性。另一方面，Cons@k 评估模型是否始终如一地产生正确或逻辑上连贯的解决方案，突出其推理能力的稳定性和可靠性。对于代码任务，关键指标是 Elo 和 Percentile，这两个指标都衡量与其他模型或人类程序员相比生成正确代码的相对技能。在科学计算任务中，填空题一般采用EM（Exact Match）作为评估指标，选择题一般采用 Accuracy 作为评估指标。EM 指标判断模型输出结果是否与预期结果完全匹配，Accuracy 指标衡量正确答案在总问题数中所占的比例。

技术方案

基于技术路线，ORM 或 PRM 方案通常采用 RM@k 和 Best-of-N 两个评估指标。RM@k 衡量奖励模型能否根据奖励分数将好的答案排在前 k 个候选答案的前面，Best-of-N 从生成的 N 条推理轨迹中选择得分最高的解决方案。自洽性评估方法包括贪婪解码、集束搜索和 Major@k。贪婪解码和集束搜索，通过限制采样范围来控制推理过程的随机性，Major@k 从 k 个候选解决方案中选择结果最一致的解决方案。在强化学习中，指标既反映实现预期结果的表现，也反映学习过程的效率。例如，累积奖励衡量智体在一段时间内收到的总奖励，而样本效率则评估智体在学习过程中使用样本的效率。

推理范式

对于推理 LLM 中多轮解决方案生成的推理范式，结果效率和过程效率 [122] 是最近提出的，用于专门评估长期思考的效率。结果效率指标从经验上评估后续解决方案对准确度提高的贡献程度，将其表示为有助于获得正确答案的有效 tokens 与所有输出 tokens 的比例。过程效率指标从经验上评估后续解决方案对解决方案多样性的贡献，具体表示为不同解决方案的 tokens 与所有解决方案 tokens 的比例。这两个指标无疑揭示现有推理 LLM 对简单问题的过度思考问题。

总结

现有的大多数评估指标都是根据最终答案来判断的。鉴于推理计算消耗巨大，必须开发一个全面的评估框架，该框架应考虑推理过程的各个方面。当前流行的评估框架，如LMMs-Eval [278]、OpenCompass [279]和 PRMBench [280]，效率不足，其指标没有充分考虑推理过程的计算和时间效率。为了解决这些缺点，探索更有效的智体任务作为潜在的解决方案。通过识别和利用更好地捕捉长推理链细微差别的任务，可以开发更强大、更有效的评估指标来增强整体评估框架，确保它不仅衡量最终输出的准确性，而且还评估整个推理过程的效率和连贯性。

性能比较

纯文本基准测试上的性能

如表所示，推理 LLM（例如 DeepSeek-R1 [31] 和 OpenAI-o1/o3 [29]、[30]）在包括数学、编码和其他一般任务在内的广泛任务中表现出色。这些模型在多个纯文本基准测试（例如 AIME 2024、MATH-500 和 LiveCodeBench）上取得高分，展示其强大的基于文本的推理能力。相比之下，基础 LLM，如 GPT-4o [62]、Claude-3.5-Sonnet [272] 和 DeepSeek-V3 [17]，通常表现不如推理 LLM，尤其是在数学和编码任务（例如 AIME 2024 和 Codeforces）中。例如，OpenAI-o1 在这些任务上的表现分别比 GPT-4o 高出 69.9% 和 73%。此外，基于 DeepSeek-V3 架构的 DeepSeek-R1 在所有基准测试中都超越其前身，进一步凸显推理 LLM 的优势。

多模态基准测试中的表现

如表所示，推理 LLM 在多模态任务中继续表现出色。 OpenAI-o1 [29] 在视觉任务中表现出色，在 MMMU 上取得 77.3% 的最高分，在 MathVista 上比其相应的基础 LLM GPT-4o [62] 高出 7.2%。然而，与纯文本任务相比，多模态任务的性能提升并不那么明显。这在一定程度上可以归因于当前多模态推理 LLM 技术的局限性，以及缺乏足够的数据集来充分评估推理 LLM 的多模态能力。

总结

总之，推理 LLM 在纯文本和多模态基准测试中都表现出色，尤其是在数学和编码任务中表现出色，它们的表现远远超过基础 LLM。虽然多模态任务的改进不如纯文本任务那么明显，但推理 LLM 仍然超越它们的对手，凸显它们在处理图像和文本数据方面的潜力。这些结果强调推理 LLM 在广泛推理任务中的多功能性和有效性，并有可能进一步发展多模态推理技术。

挑战和未来方向如下。

高效推理 LLM
协作慢思考与快思考系统
科学的 LLM 推理
神经和符号系统的深度集成
多语言 LLM 推理
多模态 LLM 推理
LLM 推理的安全

#COAT

FP8训练新范式,减少40%显存占用，训练速度提高1.4倍

近期DeepSeek V3 引爆国内外的社交媒体，他们在训练中成功应用了 FP8 精度，显著降低了 GPU 内存使用和计算开销。这表明，FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。

近期，来自伯克利，英伟达，MIT 和清华的研究者们提出了显存高效的 FP8 训练方法：COAT（Compressing Optimizer states and Activation for Memory-Efficient FP8 Training），致力于通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。COAT 实现了端到端内存占用减少 1.54 倍，端到端训练速度提高 1.43 倍，同时保持模型精度。它还可以使训练批次大小加倍，从而更好地利用 GPU 资源。通过利用 FP8 精度，COAT 使大型模型的高效全参数训练在更少的 GPU 上成为可能，并有助于在分布式训练环境中加倍批次大小，为大规模模型训练的扩展提供了实用的解决方案。最重要的是，他们的训练代码完全开源。

论文第一作者席浩诚本科毕业于清华大学姚班，目前在伯克利攻读博士学位，他在英伟达实习期间完成了这篇工作。论文共同通讯作者为 MIT 韩松副教授和清华大学陈键飞副教授。

论文标题：COAT: Compressing Optimizer States and Activation for memory efficient FP8 Training
论文链接：https://arxiv.org/abs/2410.19313
开源代码：https://github.com/NVlabs/COAT

FP8 优化器状态

FP8 量化优化器状态的难点

论文作者发现，当前的量化方法无法充分利用 FP8 的表示范围，因此在使用每组量化（per-group quantization）对优化器状态进行量化时会导致较大的量化误差。对于 FP8 的 E4M3 格式，我们希望量化组 X 的动态范围覆盖 E4M3 的最小可表示值（0.00195）和最大可表示值（448）之间的整个跨度，以充分利用其表示能力。然而，E4M3 的动态范围通常未被充分利用：E4M3 的动态范围约为 200000，但一阶动量的每个量化组的最大值最小值之比通常为 1000，二阶动量的该比值则通常为 10，远小于 E4M3 的动态范围。这使得用 FP8 来量化优化器状态的误差非常大。

解决方案：动态范围扩展

论文作者发现，在量化之前引入一个扩展函数 f (・)，能够扩大量化组的动态范围，并使其与 E4M3 对齐。使用的扩展函数为：

其中，k 是即时计算的参数，每个量化组共享一个 k。当 k > 1 时，动态范围将被扩大，并更接近 E4M3 的动态范围。在每一步训练中，都可以即时的计算出最优的 k，从而可以充分利用 E4M3 的表示范围，而原始的量化方法只能利用其中的一小部分。

动态范围扩展方法可以大大减少量化误差，并充分利用 E4M3 的动态范围。除此之外，还发现，E4M3 比 E5M2 更适合一阶动量。而对于二阶动量，虽然在原始设置中 E4M3 优于 E5M2，但在应用我们的扩展函数后，它们的量化误差几乎相同。因此，建议在量化优化器状态时使用 E4M3 + E4M3 量化策略或 E4M3 + E5M2 量化策略。

FP8 激活

动机：非线性层占用大量内存

在语言模型的前向传播中，必须保留激活值以用于反向传播计算梯度。在 Llama 模型系列中，非线性层通常占内存占用的约 50%。相比之下，线性层的贡献不到 25%。因此，优化线性和非线性层以减少激活内存占用至关重要。

解决方案：混合粒度 FP8 精度流

FP8 精度流要求所有线性和非线性层的输入和输出采用 FP8 格式。通过直接以 FP8 格式保存输入张量用于反向传播，这消除了额外的量化操作需求，从而减少了相关开销。FP8 精度流自然地将非线性和线性层的内存占用减少了 50%，因为它们只需要保存 FP8 激活值，而不是 BF16。为了进一步提高该方法的准确性，作者提出在不同层中变化量化粒度，以混合粒度的方式平衡精度和效率。

实验结果

COAT 在多个任务中展示了其在内存占用和训练速度方面的优势，同时保持了模型性能。

训练加速 1.43 倍，显存降低 1.54 倍

在使用 4 张 H100 训练 Llama-2-13B 模型时，COAT 将每个 GPU 的内存占用从 BF16 的 76.1GB 减少到 49.1GB，实现了 1.54 倍的内存缩减。同时，COAT 将训练速度从 BF16 的每秒 2345 个 token 提升至每秒 5295 个 token，达到 1.43 倍的加速。在几乎所有的训练场景下，COAT 都能够使 Batch Size 翻倍，或是让训练所需的卡数减小。

训练完全不掉点，FP8 训练表现和 BF16 吻合

COAT 在各种应用场景下，均展现出了出色的精度，完全不会导致模型性能下降。例如，在大语言模型预训练任务中，COAT 可以保持近乎无损的模型性能，训练中的 loss 曲线也和 BF16 完全吻合。

COAT 在视觉语言模型微调中同样实现了和 BF16 训练完全一致的表现。无论是 loss 曲线，还是下游任务上的表现，COAT 均和 BF16 基准相持平。

在一些实际的下游任务例子中，经过 COAT 训练过的模型也有着相当优秀的生成和总结能力。

总结

COAT 的核心价值在于使用 FP8 进行训练的同时做到了显存优化。动态范围扩展减少量化误差，混合粒度量化优化激活存储，两者协同作用使得端到端内存占用降低 1.54 倍。这种优化不仅适用于单机训练，更在分布式训练中发挥关键作用 —— 通过批量大小翻倍，可在相同硬件条件下处理更多数据，显著提升训练效率。而对于显存资源紧张的研究者，COAT 也提供了全参数训练的可行路径，降低了大模型训练的门槛。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

协同进化：AIGC、Agent和MCP如何相互促进共同发展

MCP技术社区

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】