51c大模型~合集1

大模型相关可到我的 51c地盘看哦~

whaosoft-143

3698人浏览 · 2024-09-20 10:10:25

whaosoft-143 · 2024-09-20 10:10:25 发布

我自己的原文哦~ https://blog.51cto.com/u_16839134/11471726

#EVE-7B-HD-v1.0

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

一作刁海文，是大连理工大学博士生，导师是卢湖川教授。目前在北京智源人工智能研究院实习，指导老师是王鑫龙博士。他的研究兴趣是视觉与语言，大模型高效迁移，多模态大模型等。共同一作崔玉峰，毕业于北京航空航天大学，是北京智源人工智能研究院视觉中心算法研究员。他的研究兴趣是多模态模型、生成模型和计算机视觉，主要工作有 Emu 系列。

近期，关于多模态大模型的研究如火如荼，工业界对此的投入也越来越多。国外相继推出了炙手可热的模型，例如 GPT-4o （OpenAI）、Gemini（Google）、Phi-3V （Microsoft）、Claude-3V（Anthropic），以及 Grok-1.5V（xAI）等。与此同时，国内的 GLM-4V（智谱 AI）、Step-1.5V（阶跃星辰）、Emu2（北京智源）、Intern-VL（上海 AI 实验室）、Qwen-VL（阿里巴巴）等模型百花齐放。

当前的视觉语言模型（VLM）通常依赖视觉编码器（Vision Encoder, VE）来提取视觉特征，再结合用户指令传入大语言模型（LLM）进行处理和回答，主要挑战在于视觉编码器和大语言模型的训练分离。这种分离导致视觉编码器在与大语言模型对接时引入了视觉归纳偏置问题，例如受限的图像分辨率和纵横比，以及强烈的视觉语义先验。随着视觉编码器容量的不断扩大，多模态大模型在处理视觉信号时的部署效率也受到极大限制。此外，如何找到视觉编码器和大语言模型的最佳容量配置，也变得越来越具有复杂性和挑战性。

在此背景下，一些更加前沿的构想迅速浮现：

能否去除视觉编码器，即直接构建无视觉编码器的原生多模态大模型？
如何高效且丝滑地将大语言模型演变为无视觉编码器的原生多模态大模型？
如何弥合无编码器的原生多模态框架和基于编码器的主流多模态范式的性能差距？

Adept AI 在 2023 年末发布了 Fuyu 系列模型并做出了一些相关尝试，但在训练策略、数据资源和设备信息方面没有任何披露。同时，Fuyu 模型在公开的视觉文本评测指标上与主流算法存在显著的性能差距。同期，我们进行的一些先导试验显示，即使大规模拉升预训练数据规模，无编码器的原生多模态大模型仍面临收敛速度慢和性能表现差等棘手问题。

针对这些挑战，智源研究院视觉团队联合大连理工大学、北京大学等国内高校，推出了新一代无编码器的视觉语言模型 EVE。通过精细化的训练策略和额外的视觉监督，EVE 将视觉 - 语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据，EVE 在多个视觉 - 语言基准测试中表现出色，与类似容量的基于编码器的主流多模态方法相媲美，并显著优于同类型 Fuyu-8B。EVE 的提出旨在为纯解码器的原生多模态架构发展提供一条透明且高效的路径。

论文地址: https://arxiv.org/abs/2406.11832
项目代码: https://github.com/baaivision/EVE
模型地址: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. 技术亮点

原生视觉语言模型：打破了主流的多模态模型的固定范式，去除视觉编码器，可处理任意图像长宽比。在多个视觉语言基准测试中显著优于同类型的 Fuyu-8B 模型，并接近主流的基于视觉编码器的视觉语言架构。
数据和训练代价少: EVE 模型的预训练仅筛选了来自 OpenImages、SAM 和 LAION 的公开数据，并利用了 66.5 万条 LLaVA 指令数据和额外的 120 万条视觉对话数据，分别构建了常规版本和高分辨版本的 EVE-7B。训练在两个 8-A100 (40G) 节点上约需 9 天完成，或者在四个 8-A100 节点上约需 5 天完成。
透明和高效的探索: EVE 尝试探索一条高效、透明且实用的路径通往原生视觉语言模型，为开发新一代纯解码器的视觉语言模型架构提供全新的思路和宝贵的经验，为未来多模态模型的发展开辟新的探索方向。

2. 模型结构

首先，通过 Vicuna-7B 语言模型进行初始化，使其具备丰富的语言知识和强大的指令跟随能力。在此基础上，去除深度视觉编码器，构建轻量级视觉编码层，高效无损地编码图像输入，并将其与用户语言命令输入到统一的解码器中。此外，通过视觉对齐层与通用的视觉编码器进行特征对齐，强化细粒度的视觉信息编码和表征。

2.1 Patch Embedding Layer

首先使用单层卷积层来获取图像的 2D 特征图，然后通过平均池化层进行下采样；
使用交叉注意力模块（CA1）在限定感受野中交互，增强每个 patch 的局部特征；
使用 < CLS> token 并结合交叉注意力模块（CA2），为后续每个 patch 特征提供全局信息；
在每个 patch 特征行的末尾插入了一个可学习的 < SPL> token，帮助网络理解图像的二维空间结构。

2.2 Patch Aligning Layer

记录有效 patch 的二维形状；丢弃 < CLS>/<PAD> tokens，并利用自适应池化层还原到原始的二维形状；
通过层级交叉注意力模块（CA3），整合多层网络视觉特征，从而实现与视觉编码器输出的细粒度对齐。

3. 训练策略

大语言模型引导的预训练阶段：建立视觉和语言之间的初步联系，为后续稳定高效的大规模预训练打下基础；
生成式预训练阶段：进一步提高模型对视觉 - 语言内容的理解能力，实现纯语言模型到多模态模型的丝滑转变；
监督式的微调阶段：进一步规范模型遵循语言指令和学习对话模式的能力，满足各种视觉语言基准测试的要求。

在预训练阶段，筛选了来自 SA-1B、OpenImages 和 LAION 等 3300 万公开数据，仅保留分辨率高于 448×448 的图像样本。特别地，针对 LAION 图像冗余度高的问题，通过在 EVA-CLIP 提取的图像特征上应用 K-means 聚类，生成 50,000 个聚类，并从中挑选出最接近每个聚类中心的 300 张图像，最终选出 1500 万张 LAION 图像样本。随后，利用 Emu2 （17B）和 LLaVA-1.5 （13B）重新生成高质量图像描述。
在监督微调阶段，使用 LLaVA-mix-665K 微调数据集来训练得到标准版的 EVE-7B，并整合 AI2D、Synthdog、DVQA、ChartQA、DocVQA、Vision-Flan 和 Bunny-695K 等混合数据集来训练得到高分辨率版本的 EVE-7B。

4. 定量分析

EVE 模型在多个视觉语言基准测试中明显优于同类型的 Fuyu-8B 模型，并且与多种主流的基于编码器的视觉语言模型表现相当。然而，由于使用大量视觉语言数据训练，其在准确响应特定指令方面存在挑战，在部分基准测试中表现有待提高。令人兴奋的是，通过高效的训练策略，可以实现无编码器的 EVE 与带编码器基础的视觉语言模型取得相当的性能，从根本上解决主流模型在输入尺寸灵活性、部署效率和模态容量匹配方面的问题。

相较于带编码器的模型易受到语言结构简化和丰富知识丢失等问题困扰，EVE 表现出随着数据规模的增加而逐步稳定地提升性能，逐渐逼近基于编码器模型的性能水平。这可能是因为在统一网络中编码和对齐视觉和语言模态更具挑战性，使得无编码器模型相对于带编码器的模型更不容易过拟合。

5. 同行怎么看？

英伟达高级研究员 Ali Hatamizadeh 表示，EVE 令人耳目一新，尝试提出全新的叙事，区别于构建繁杂的评测标准和渐进式的视觉语言模型改进。

苹果机器学习工程师 Prince Canuma 表示，EVE 架构非常有趣，对 MLX VLM 项目集是一个很好的补充。

6.未来展望

作为无编码器的原生视觉语言模型，目前 EVE 取得了令人鼓舞的结果。沿着这条路径，未来还有一些有趣的方向值得探索尝试：

进一步的性能提升：实验发现，仅使用视觉 - 语言数据进行预训练显著地降低了模型的语言能力（SQA 得分从 65.3% 降至 63.0%），但逐步提升了模型的多模态性能。这表明在大语言模型更新时，内部存在语言知识的灾难性遗忘。建议适当融合纯语言的预训练数据，或采用专家混合（MoE）策略来减少视觉与语言模态间干扰。
无编码器架构的畅想：通过恰当策略和高质量数据的训练，无编码器视觉语言模型可以与带编码器的模型相匹敌。那么在相同的模型容量和海量的训练数据下，二者性能如何？我们推定通过扩大模型容量和训练数据量，无编码器架构是能够达到甚至超越基于编码器架构，因为前者几乎无损地输入图像，避开了视觉编码器的先验偏置。
原生多模态的构建: EVE 完整地展现了如何高效稳定地构建原生多模态模型，这为之后整合更多模态（如音频、视频、热成像、深度等）开辟了透明和切实可行的道路。核心思想是在引入大规模统一训练之前，先通过冻结的大语言模型对这些模态进行预对齐，并利用相应的单模态编码器和语言概念对齐进行监督。

....

#机器人在现实中碰过的壁，AI也会碰

「机器学习一直生活在一个令机器人专家、化学家、生物学家和神经科学家羡慕不已的泡沫中，随着它真正开始发挥作用，我们所有人都将遇到其他人多年来一直在应对的同样的现实壁垒。」

有人说，机器人领域进展缓慢，甚至和机器学习的其他子领域相比显得毫无进展。

谷歌 DeepMind 机器人科学家，SayCan、RT-1、RT-2 等xx智能项目参与者 Alex Irpan 同意这一说法。但他认为，这是因为机器人学是一个和现实紧密连接的领域，现实的复杂性决定了他们不免碰壁。他还指出，这些问题不是机器人技术所独有的。同样的问题也适用于大语言模型（LLM）等技术。这些模型在面对现实世界时，会遇到与机器人学类似的复杂性问题。

最近，他写了一篇题为「The Tragedies of Reality Are Coming for You（现实的悲剧正在向你袭来）」的博客来阐述这一观点。

现实的悲剧正在向你袭来

2023 年，我参加了一次 ML 会议。夜未央，酒酣耳热，话题转到了一个问题上：「如果你能把任何一个机器学习子领域的资源都给另一个子领域，你会砍掉哪个，把资源给谁？」

我不记得别人是怎么说的，但有一个人说他们会砍掉机器人。当我进一步追问时，他们说机器人技术进展太慢，相对于其他领域来说，什么都没有发生。

他们说机器人技术比纯软件的机器学习子领域进展缓慢，我认为他们说得没错，但我还想补充两点：

机器人学习进展较慢的原因是：如果不解决难题，就很难有所作为。
机器人技术的难题并非机器人独有。

在机器人技术领域，人们常说的一句话是「现实是混乱的」。相对于代码而言，我会将其延伸为「现实是复杂的」。在机器人技术中，你往往要将混乱的现实推向一个足够好的抽象层，以便代码能够在其上发挥作用。作为一个领域，计算机科学花了数十年时间在硬件和软件之间创建了良好的抽象层。代码描述了如何将电力输送到硬盘、处理器和显示器，它足够可靠，我甚至不需要考虑它。

这样做有很多好处。一旦你完成了这项艰巨的工作，并将你的工作进展转移到抽象的逻辑空间中，一切都会变得更容易。代码和数据的可复制性令人难以置信。我在 3 台设备上同步了代表这篇博文草稿的文件副本，甚至不用花费任何精力思考。

不过，就像 Joel Spolsky 所说，所有抽象在某种程度上都有漏洞，而我发现机器人技术中的漏洞往往更大。有很多出错的方式与代码的正确性无关。

这和这个学科的一些基本原理有关吗？有一点。很多机器人硬件比笔记本电脑或 Linux 服务器更具实验性。消费类机器人还不是一大产业。「实验性」往往意味着「奇怪的、更容易出现故障的状态」。

但是，我不认为硬件是造成问题的主要原因。现实才是问题的根源。Benjamin Holson 在他的「Mythical Non-Roboticist（神话般的非机器人学家）」一文中说得非常好：

第一个难点在于，机器人要处理的是现实世界中不完美的感知和不完美的执行。全局可变状态是一种糟糕的编程风格，因为它真的很难处理，但对于机器人软件来说，整个物理世界都是全局可变状态，你只能不可靠地观察它，并希望你的行动能接近你想要实现的目标。

机器人研究依赖于在现实与软件之间搭建新的桥梁，但这也发生在机器人研究之外。任何与现实对接的软件，对现实的了解都是不完美的。任何试图影响现实世界变化的软件，都必须应对现实的全局可变状态。任何软件，如果其行为依赖于现实中发生的事情，就会招致对抗性的噪声和复杂性。

游戏 AI 就是一个很好的例子。国际象棋 AI 是可靠的超人。然而，如果你以特定方式下棋，一些超人围棋 AI 是可以击败的，正如 Tony T. Wang 等人在 ICML 2023 论文「Adversarial Policies Beat Superhuman Go AIs」中发现的那样。对抗性技术找到了足够清晰以至于人类可以复制的策略。

在附录 G.2 中，我们的一位作者，一位围棋专家，能够在没有任何算法帮助的情况下，通过学习对手的对局记录来实现这种 [cyclic] 攻击。他们在 KGS 在线围棋服务器上以标准人类条件对局，在与作者无关的顶级 KataGo 机器人对局中取得了超过 90% 的胜率。

作者甚至在给机器人 9 个让子的情况下获胜，这是一个巨大的优势：拥有这些让子的人类职业棋手在面对任何对手（无论是人类还是人工智能）时，胜率几乎都是 100%。他们还击败了 KataGo 和 Leela Zero，二者每局棋的搜索次数都达到了 10 万次，这通常远远超出了人类的能力范围。此后，其他人类也利用 cyclic 攻击击败了其他各种顶级围棋 AI。

与此同时，几年前，OpenAI 创建了一个系统，该系统击败了 Dota 2 的卫冕世界冠军。在向公众开放该系统以测试其稳健性后，一个团队设计了一套策略，取得了 10 场连胜。

基于这一点，你可能会持一种悲观的观点，认为即使是连接 19 x 19 围棋棋盘或 Dota 2 这样一个简单的「现实」，其额外复杂性就足以使稳健行为具有挑战性。我认为这种观点有失公允，因为这两个系统都没有将稳健性作为最高目标，但我确实认为它们是一个有趣的案例研究。

最近，围绕 LLM 的炒作浪潮一浪高过一浪 —— 他们能做什么，他们能在哪里应用。这其中隐含的一个信念是，LLM 可以极大地改变人们在工作和休闲中与技术交互的方式。换句话说，LLM 将改变我们与现实交互的方式。事实上，我也加入了这股炒作浪潮，具体来说，我怀疑基础模型短期炒作过度，长期炒作不足。然而，这也意味着，对于一个历来不善于考虑现实的领域来说，现实的一切混乱都将到来。

就在这个人说机器人技术是浪费资源的同一个 ML 会议上，我提到我们正在用真实机器人进行基础模型实验。有人说这似乎有点吓人，我向他们保证这只是一个研究原型。但我也觉得 LLM 生成和执行软件有点吓人，我觉得他们隐隐担心一个却不担心另一个很有意思。硅谷的人有点自相矛盾。他们既相信软件能推动初创企业实现惊人的变革，又相信他们的软件不值得深思或反省。我认为，比特世界与原子世界一样，都是现实的一部分。它们在不同的层面上运行，但都是现实的一部分。

我注意到（有些幸灾乐祸），LLM 从业者也开始遭遇之前机器人技术碰到过的痛点。比如「我们无法复制这些训练，因为这太耗费资金了」。是啊，这个问题在机器人领域已经讨论了至少十年。再比如，「我没法让必应告诉我《阿凡达 2》的上映日期，因为它一直在调出关于自己的新闻报道，并在生成前进行自我修正。」

我们现在所处的世界，任何公开的互联网文本都会不可逆转地影响检索增强生成。欢迎来到全局可变状态。每当我看到有人声称 ChatGPT 的行为出现了倒退，我就会想起我和其他人为了解释机器人性能突然莫名下降而想出的各种「阴谋论」，以及问题究竟是出在模型、环境，还是我们的过度推断。

俗话说「所有的机器人 demo 都在撒谎」，人们发现所有的 LLM demo 也都在撒谎。我认为，从根本上说，这是无法避免的，因为人类的注意力是有限的。重要的是评估谎言的类型、大小和重要性。他们是否展示了模型 / 机器人如何泛化？他们有没有提到这些例子是如何精挑细选的？一旦将现实联系起来，这些问题就会变得更加复杂。梅西目前看起来是个不错的球员，但「他能在斯托克城寒冷的雨夜做到这一点吗」？

让问题变得复杂的是，这些问题的答案并不总是「否」。梅西可以在斯托克城的寒冷雨夜做到这一点。他足够优秀。这让问题变得困难，因为正确地回答一个「是」比正确地回答一个「否」要重要得多。随着 LLM 越来越优秀，随着 AI 在日常生活中越来越常见，作为一个社会，我们需要越来越善于判断模型是否已经证明了自己。我对未来的主要担忧之一，就是我们不善于评估模型是否已经证明了自己。

但是，我期望机器人学家会走在曲线的前面。在 LLM 操纵通用基准测试的说法出现之前，我们就在抱怨评估问题。早在「我们需要更好的数据覆盖率」成为基础模型预训练团队的口号之前，我们就在努力获取足够的数据，以捕捉自动驾驶的长尾效应。机器学习一直生活在一个令机器人专家、化学家、生物学家和神经科学家羡慕不已的泡沫中，随着它真正开始发挥作用，我们所有人都将遇到其他人多年来一直在应对的同样的现实壁垒。这些挑战是可以克服的，但会很艰难。欢迎来到现实世界。欢迎来到痛苦的世界。

原文链接：https://www.alexirpan.com/2024/07/08/tragedies-of-reality.html

....

#Teaching Transformers Causal Reasoning through Axiomatic Training

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4

把因果链展示给 LLM，它就能学会公理。

AI 已经在帮助数学家和科学家做研究了，比如著名数学家陶哲轩就曾多次分享自己借助 GPT 等 AI 工具研究探索的经历。AI 要在这些领域大战拳脚，强大可靠的因果推理能力是必不可少的。whaosoft开发板商城测试设备

本文要介绍的这项研究发现：在小图谱的因果传递性公理演示上训练的 Transformer 模型可以泛化用于大图谱的传递性公理。

也就是说，如果让 Transformer 学会执行简单的因果推理，就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式，只有演示足够就能用于学习任意公理。

引言

因果推理（causal reasoning）可以定义成一组推理流程并且这组推理流程要符合专门针对因果性的预定义公理或规则。举个例子，d-separation（有向分离）和 do-calculus 规则可被视为公理，而 collider set 或 backdoor set 的规范则可被看作是由公理推导出的规则。

通常来说，因果推理使用的数据对应于一个系统中的变量。通过正则化、模型架构或特定的变量选择，可以归纳偏置的形式将公理或规则集成到机器学习模型中。

根据可用数据种类的差异（观察数据、干预数据、反事实数据），Judea Pearl 提出的「因果阶梯」定义了因果推理的可能类型。

由于公理是因果性的基石，因此我们不禁会想是否可以直接使用机器学习模型来学习公理。也就是说，如果学习公理的方式不是学习通过某个数据生成流程得到的数据，而是直接学习公理的符号演示（并由此学习因果推理），哪又会如何呢？

相较于使用特定的数据分布构建的针对特定任务的因果模型，这样的模型有一个优势：其可在多种不同的下游场景中实现因果推理。随着语言模型具备了学习以自然语言表达的符号数据的能力，这个问题也就变得非常重要了。

事实上，近期已有一些研究通过创建以自然语言编码因果推理问题的基准，评估了大型语言模型（LLM）是否能够执行因果推理。whao开发板商城测试设备

微软、MIT 和印度理工学院海得拉巴分校（IIT Hyderabad）的研究团队也朝这个方向迈出了重要一步：提出了一种通过公理训练（axiomatic training）学习因果推理的方法。

论文标题：Teaching Transformers Causal Reasoning through Axiomatic Training
论文地址：https://arxiv.org/pdf/2407.07612

公理训练

将因果公理表示成以下符号元组 ⟨premise, hypothesis, result⟩。其中 hypothesis 是指假设，即因果陈述；premise 是前提，是指用于确定该陈述是否为「真」的任意相关信息；result 自然就是结果了。结果可以是简单的「是」或「否」。

基于这个模板，可通过修改变量名称、变量数量和变量顺序等来生成大量合成元组。

为了用 Transformer 学习因果公理，实现公理训练，该团队采用了以下方法构建数据集、损失函数和位置嵌入。

公理训练：数据集、损失函数和位置编制

训练数据

基于一个特定公理，可根据「前提」将「假设」映射成合适的标签（Yes 或 No）。要创建训练数据集，该团队的做法是在特定的变量设置 X、Y、Z、A 下枚举所有可能的元组 {(P, H, L)}_N，其中 P 是前提，H 是假设，L 是标签（Yes 或 No）。

给定一个基于某个因果图谱的前提 P，如果可通过使用特定的公理（一次或多次）推导出假设 P，那么标签 L 就为 Yes；否则为 No。

举个例子，假设一个系统的底层真实因果图谱具有链式的拓扑结构：X_1 → X_2 → X_3 →・・・→ X_n。那么，可能的前提是 X_1 → X_2 ∧ X_2 → X_3，那么假设 X_1 → X_3 有标签 Yes，而另一个假设 X_3 → X_1 有标签 No。上述公理可被归纳式地多次用于生成更复杂的训练元组。

对于训练设置，使用传递性公理生成的 N 个公理实例构建一个合成数据集 D。D 中的每个实例都构建成了 (P_i, H_ij, L_ij) 的形式，

，其中 n 是每第 i 个前提中的节点数量。P 是前提，即某种因果结构的自然语言表达（如 X 导致 Y，Y 导致 Z）；之后是问题 H（如 X 导致 Y 吗？）；L 为标签（Yes 或 No）。该形式能有效覆盖给定因果图谱中每条独特链的所有成对节点。

损失函数

给定一个数据集，损失函数的定义基于每个元组的基本真值标签，表示为：

分析表明，相比于下一 token 预测，使用该损失能得到很有希望的结果。

位置编码

除了训练和损失函数，位置编码的选择也是另一个重要因素。位置编码能提供 token 在序列中绝对和相对位置的关键信息。

著名论文《Attention is all you need》中提出了一种使用周期函数（正弦或余弦函数）来初始化这些编码的绝对位置编码策略。

绝对位置编码能为任何序列长度的所有位置提供确定的值。但是，有研究表明绝对位置编码难以应对 Transformer 的长度泛化任务。在可学习的 APE 变体中，每个位置嵌入都是随机初始化的，并使用该模型完成了训练。该方法难以应对比训练时的序列更长的序列，因为新的位置嵌入依然未被训练和初始化。

有趣的是，近期有发现表明移除自回归模型中的位置嵌入可以提升模型的长度泛化能力，而自回归解码期间的注意力机制足以编码位置信息。该团队使用了不同的位置编码来理解其对因果任务中的泛化的影响，包括可学习位置编码（LPE）、正弦位置编码（SPE）、无位置编码（NoPE）。

为了提升模型的泛化能力，该团队也采用了数据扰动，其中包括长度、节点名称、链顺序和分支情况的扰动。

实验

下面问题又来了：如果使用这些数据训练一个模型，那么该模型能否学会将该公理应用于新场景？

为了解答这个问题，该团队使用这个因果无关型公理的符号演示从头开始训练了一个 Transformer 模型。

为了评估其泛化性能，他们在简单的大小为 3-6 个节点的因果无关公理链上进行了训练，然后测试了泛化性能的多个不同方面，包括长度泛化性能（大小 7-15 的链）、名称泛化性能（更长的变量名）、顺序泛化性能（带有反向的边或混洗节点的链）、结构泛化性能（带有分支的图谱）。图 1 给出了评估 Transformer 的结构泛化的方式。

具体来说，他们基于 GPT-2 架构训练了一个基于解码器的有 6700 万参数的模型。该模型有 12 个注意力层、8 个注意力头和 512 嵌入维度。他们在每个训练数据集上从头开始训练了该模型。为了理解位置嵌入的影响，他们还研究了三种位置嵌入设置：正弦位置编码（SPE）、可学习位置编码（LPE）和无位置编码（NoPE）。

结果如表 1、图 3 和图 4 所示。

表 1 给出了在训练时未曾见过的更大因果链上评估时不同模型的准确度。可以看到，新模型 TS2 (NoPE) 的表现能与万亿参数规模的 GPT-4 相媲美。

图 3 是在有更长节点名称（长于训练集的）的因果序列上的泛化能力评估结果以及不同位置嵌入的影响。

图 4 评估的是在更长的未见过的因果序列上的泛化能力。

他们发现，在简单链上训练的模型可以泛化到在更大的链上多次应用公理，但却无法泛化到顺序或结构泛化等更复杂的场景。但是，如果在简单链以及带有随机逆向边的链组成的混合数据集上训练模型，则模型可以很好地泛化到各种评估场景。

通过扩展在 NLP 任务上的长度泛化研究结果，他们发现了位置嵌入在确保在长度和其它方面实现因果泛化的重要性。他们表现最佳的模型没有位置编码，但他们也发现正弦编码在某些情况下也很好用。

这种公理训练方法还能泛化用于一个更困难的问题，如图 5 所示。即以包含统计独立性陈述的前提为基础，任务目标是根据因果关系分辨相关性。解决该任务需要多个公理的知识，包括 d-separation 和马尔可夫性质。

该团队使用与上面一样的方法生成了合成训练数据，然后训练了一个模型，结果发现在包含 3-4 个变量的任务演示上训练得到的 Transformer 能学会解决包含 5 个变量的图谱任务。并且在该任务上，该模型的准确度高于 GPT-4 和 Gemini Pro 等更大型的 LLM。

该团队表示：「我们的研究提供了一种通过公理的符号演示教模型学习因果推理的新范式，我们称之为公理训练（axiomatic training）。」该方法的数据生成和训练流程是普适的：只要一个公理能被表示成符号元组的格式，就可使用此方法学习它。

....

#iPhone、iPad、MacBook老旧设备组成异构集群，能跑Llama 3

假如你有闲置的设备，或许可以试一试。

这次，你手里的硬件设备也能在 AI 领域大展拳脚了。

将 iPhone、iPad、Macbook 进行组合，就能组装成「异构集群推理方案」，然后顺畅的运行 Llama3 模型。

值得一提的是，这个异构集群可以是 Windows 系统，也可以是Linux、iOS 系统，并且对 Android 的支持很快到来。

异构集群正在运行中。

根据项目作者 @evilsocket 的介绍，这个异构集群包括 iPhone 15 Pro Max、iPad Pro、MacBook Pro (M1 Max)、NVIDIA GeForce 3080、2x NVIDIA Titan X Pascal。所有代码都已经上传到 GitHub。

看到这，网友纷纷表示，这位老哥确实不简单。

不过也有网友开始担心能耗问题，暂且不管速度，电费都耗不起。来回搬数据，损耗太大了。

项目介绍

上述功能的实现，离不开一个名为 Cake 的 Rust 框架。Cake 可以完成大模型（例如 Llama3）的分布式推理，旨在将消费级硬件组合成异构集群，其中消费级硬件采用多种操作系统，包括：iOS、Android、macOS、Linux 和 Windows，从而使 AI 更易于访问。

项目地址：https://github.com/evilsocket/cake

Cake 的主要思路是将 transformer 块分片到多个设备，以便能够让通常不适合单个设备 GPU 内存的模型运行推理。对同一工作线程上的连续 transformer 块的推理是分批进行的，以便最大限度地减少数据传输造成的延迟。

Cake 目前支持的系统和设备如下：

编译

安装 Rust 后，运行下列代码：

cargo build --release

假如用户想要在应用程序中生成 iOS 绑定，可以进行下述操作：

make ios

使用

运行 worker 节点：

cake-cli --model /path/to/Meta-Llama-3-8B \ # model path, read below on how to optimize model size for workers
         --mode worker \                    # run as worker
         --name worker0 \                   # worker name in topology file
         --topology topology.yml \          # topology
         --address 0.0.0.0:10128            # bind address

运行 master 节点：

cake-cli --model /path/to/Meta-Llama-3-8B \
         --topology topology.yml

其中 topology.yml 确定哪些层由哪个 worker 提供服务：

linux_server_1:
  host: 'linux_server.host:10128'
description: 'NVIDIA Titan X Pascal (12GB)'
layers:
    - 'model.layers.0-5'
linux_server_2:
  host: 'linux_server2.host:10128'
description: 'NVIDIA GeForce 3080 (10GB)'
layers:
    - 'model.layers.6-16'
iphone:
  host: 'iphone.host:10128'
description: 'iPhone 15 Pro Max'
layers:
    - 'model.layers.17'
ipad:
  host: 'ipad.host:10128'
description: 'iPad'
layers:
    - 'model.layers.18-19'
macbook:
  host: 'macbook.host:10128'
description: 'M1 Max'
layers:
    - 'model.layers.20-31'

关于内存和磁盘空间优化问题，用户可能希望只向 worker 提供模型中实际需要的数据，而不是整个文件夹，在这种情况下，可以使用 cake-split-model 。例如，要生成较小版本的 llama3 safetensors，可以采用如下代码：

cake-split-model --model-path path/to/Meta-Llama-3-8B \ # source model to split
                 --topology path/to/topology.yml \      # topology file
                 --output output-folder-name

参考链接：https://x.com/tuturetom/status/1812654489972973643

....

#OpenAI的1500亿「史上最大」融资轮

苹果反水：OpenAI的1500亿「史上最大」融资轮，难了

有金主已经决定收手。

在 OpenAI，高层变动正在成为一种传统。

在不到两年的时间里，OpenAI 从一个 AI 圈内领先的实验室，发展成为一家全球知名的企业。在首席执行官山姆・奥特曼（Sam Altman）被罢免并迅速复职不到一年后，今年 9 月，三位高层领导突然宣布辞职。

一个摆在台面上的问题是：这次宫斗的时间点，就在 OpenAI 即将完成可能是硅谷史上最大一轮融资的同一周。

本周，OpenAI 首席技术官 Mira Murati、首席研究官 Bob McGrew 和 Post Training 研究副总裁 Barret Zoph 纷纷宣布将离开公司。对于 OpenAI 杰出的技术领导层来说，这是一个令人震惊的转变。

就在 Murati 离职之前，OpenAI 联合创始人 John Schulman 于 8 月宣布他将离开 OpenAI，前往竞争对手 Anthropic 工作。

而在 Murati 宣布辞职的同一天，路透社报道称，OpenAI 正在努力改变其公司结构，成为一家面向盈利的公司，不再受公司非营利部门的控制。然而这次转型的过程可能并不顺利。

最新的消息是：这最新一轮 65 亿美元的融资，苹果已经决定不跟了。

在这个时间点收手，参与者和投资金额都会可能会发生变化。

大规模融资遇险，风投要「用脚投票」

有现任和前任员工表示，OpenAI 仓促地发布了产品并进行安全测试，业已失去对竞争对手的领先优势。他们表示，奥特曼在很大程度上脱离了日常工作：一直以来都有报道称，他飞遍全球推广人工智能，并计划筹集巨额资金来建造 AI 芯片产业链和数据中心。

正如奥特曼所描述的，自他回归以来，OpenAI 已经逐渐发展成为一家更加正常的公司。其员工人数从去年 11 月的 770 人增至 1700 人，今年也任命了首位首席财务官和首席产品官。它在董事会中增加了具有企业和军事背景的人。该公司正在寻求从微软、苹果和英伟达等支持者那里筹集 65 亿美元资金。

OpenAI 越来越专注于构建其产品，一些长期任职的 OpenAI 员工表示，这些产品的重点不再是纯粹的研究。

CTO Mira Murati 是从 OpenAI 离开的又一位高管。

公司中的一些人表示，由于开发和运营 AI 大模型需要数十亿美元，OpenAI 必须要转型发展才能实现财务可持续性。他们认为，人工智能需要走出实验室，走向世界，进而改变人们的生活。

但也有很多人，包括长期以来在公司工作的科学家们认为，高额融资和巨额盈利的前景已经破坏了 OpenAI 的文化。

人们都认同的一件事是 —— 在当前组织结构内维持以 AGI 使命为中心的研究，和快速增长的业务之间存在矛盾。

「我们很难同时做到这两点 —— 产品至上的文化与研究文化截然不同，」OpenAI 的早期员工、现任 AI 初创公司 Cresta 首席技术官的 Tim Shi 说。「你必须吸引不同类型的人才，也许你在建立的是一家与众不同的公司。」

本周事件发生时，奥特曼一直在都灵参加意大利科技周（Italian Tech Week）。在周四的一次炉边谈话中，他否认员工离职与重组计划有关，并表示：「我认为这对所有人来说都是一次伟大的转型，希望 OpenAI 会因此变得更加强大，就像我们经历所有转型一样。」

OpenAI 的首席财务官周四致信投资者，称该公司有望在下周完成融资，并将在随后举行一系列电话会议，向投资者介绍其产品和研究团队的主要领导人。

OpenAI 正在专注于持续改进 ChatGPT 等产品，并已取得了初步成果。根据纽约时报昨天获取的内部文件，其在 8 月份的收入达到了 3 亿美元，自 2023 年初以来增长了 1700%，年化收入已达到约 37 亿美元，是去年同期的三倍多。OpenAI 估计，其收入明年将膨胀至 116 亿美元。

现在每月约有 3.5 亿人在使用 OpenAI 的大模型服务，大约 1000 万 ChatGPT 用户每月向该公司支付 20 美元订阅费。内部文件称，OpenAI 预计在今年年底会把价格提高 2 美元，并将在未来五年内把会员价格提高到 44 美元。另有超过一百万第三方开发者在使用 OpenAI 技术来支持他们的服务。

不过在支付运营服务相关成本后，OpenAI 今年预计仍将亏损 50 亿美元。该公司正计划新一轮 70 亿美元的融资，使估值达到 1500 亿美元，这是私营科技公司有史以来的最高估值之一。这轮融资最早可能在下周结束。

持续增长有助于 OpenAI 保持其技术优势。该公司的下一代基础模型 GPT-5 被外界普遍认为将是技术的重大飞跃，但也面临着研发的挫折和延迟。与此同时，竞争对手推出了与 OpenAI 当前产品大致相当的大模型。更要命的是，其中 Anthropic 和马斯克的 xAI 提出的模型，是由前 OpenAI 领导人创办的。

日益激烈的竞争让那些看重 OpenAI 工作的研究人员感到沮丧，因为其领导者的位置正在被动摇。一些外界投资者也在质疑 OpenAI 内部近乎持续不断的权力斗争和清洗是否会破坏其发展。

「OpenAI 是风投史上最热门的标的，」TRAC 创始合伙人 Joe Aaron 表示，但 OpenAI 的投资者也应该对一家已成为宫斗代名词的公司保持警惕。

「Thrive Capital 的 Josh Kushner 将全部赌注押在 OpenAI 和山姆・奥特曼身上，就像孙正义将其愿景基金的 40% 押在雅虎和杨致远身上一样。但不同之处在于，杨致远没有被解雇，也没有被重新任命为 CEO，只是他的最资深的员工离开了。声誉岌岌可危。我会用脚投票。」

「初创公司倒闭最快的方式就是公司内部动荡和权利争夺战，」一位不愿透露姓名的风险投资者表示。「OpenAI 拥有巨大的技术护城河，但问题是，像 Anthropic 这样的公司正在紧随其后。他们领先于所有人，这也让人们担忧，他们可能会浪费这种优势。」

「在典型的融资过程中，如果管理团队中有如此多人在融资结束前离开，潜在投资者会重新考虑。然而，OpenAI 不是一家典型的公司，」Sapphire Ventures 总裁兼合伙人 Jai Das 表示。他将这家初创公司描述为「几乎是」生成式 AI 的代名词 —— 根据高盛 6 月份的估计，这一领域在未来几年可能会吸引科技公司高达 1 万亿美元的资金投入。

失败的挽留

OpenAI 员工将去年 11 月的奥特曼被解雇和取消解雇称为「短暂事件」，因为它只持续了几天。

随着近期 OpenAI 管理层「人事地震」，人们再次想起那场「宫斗」。

「宫斗」事件之后的近一年来，OpenAI 的组织架构变化不小。让我们来梳理一下时间线：

2024 年 2 月，Andrej Karpathy 宣布从 OpenAI 离开；
2024 年 5 月，联合创始人、前首席科学家 Ilya Sutskever 离职；
2024 年 8 月，OpenAI 总裁 Greg Brockman 宣布休假至年底；
2024 年 8 月，联合创始人 John Schulman 离职；
2024 年 9 月，OpenAI CTO Mira Murati 官宣离职。

值得注意的是，据《华尔街日报》报道，OpenAI 高层担心 Ilya Sutskever 等人的离职可能会引发更大规模的人员外流，曾努力让 Ilya Sutskever 回归。

Mira Murati 和总裁 Greg Brockman 告诉 Ilya Sutskever，公司陷入混乱，如果没有他，公司可能会倒闭。他们甚至去 Ilya 家里拜访，给他带了其他员工的卡片和信件，敦促他回来。

据称，奥特曼也拜访了 Ilya。

Ilya 也曾向 OpenAI 的前同事表示，他正在认真考虑回来。但不久之后，Greg Brockman 打电话说 OpenAI 将撤销让他回归的提议。

原因是 OpenAI 在确定 Ilya 的新角色是什么以及他将如何与其他研究人员（包括其首席科学家的继任者）一起工作时遇到了困难。

后来，Ilya 创立了一家新公司 ——「安全超级智能」（Safe SuperIntelligence，SSI），并已融资 10 亿美元。

反观 OpenAI，如今除了大权在握的山姆・奥特曼，OpenAI 11 人联合创始团队中还剩下一位：语言与代码生成团队负责人 Wojciech Zaremba。

技术落地，磕磕绊绊

今年春天，OpenAI 发布 GPT-4o，在人们感慨 OpenAI 又一次震撼世界的背后，是 OpenAI 内部开发局面的紧张混乱。

或许是出于外界对 OpenAI 模型安全的质疑，研究人员被要求对 GPT-4o 进行比最初计划更全面的安全测试，但只给了九天的时间。高管们希望 GPT-4o 在谷歌年度开发者大会之前首次亮相，并吸引更多关注。

为此，安全人员每天工作 20 个小时，没有时间仔细检查他们的工作。基于不完整数据的初步结果表明 GPT-4o 足够安全，可以部署。

但该模型推出后，熟悉该项目的人士表示，随后的分析发现该模型超出了 OpenAI 的内部的安全底线 —— 其被定义为 AI 生成可以说服人们改变信仰，从事潜在危险或非法行为的内容的能力。

研究团队向高层管理人员报告了该问题并致力于修复。但一些员工对这一过程感到沮丧，他们表示，如果公司花更多时间进行安全测试，他们本可以在呈现给用户之前解决问题。

虽然 GPT-4o 是在今年春天发布的，但 OpenAI 直到最近才全面开放了 GPT-4o 的高级语音功能，或许也和安全问题有关。

急于部署 GPT-4o 是影响 Murati 等技术领导者抉择的其中一件事。CTO 一再推迟计划推出的产品，包括搜索和语音交互，因为她认为这些产品还没有准备好。

而 GPT-4o 的高级语音功能一开放，Mira Murati 随后就宣布了离职。

其他高级职员也越来越不满。

另一位联合创始人兼顶尖科学家 John Schulman 告诉同事，他对 OpenAI 的内部冲突感到沮丧，对 Ilya Sutskever 未能回归感到失望，并担心 OpenAI 最初使命的重要性逐渐减弱。

8 月，他跳槽去了 Anthropic。

至于休假的 Greg Brockman，据 OpenAI 现任和前任员工称，Greg Brockman 倾向于参与任何他想要参与的项目，常常让共事的人感到沮丧。他们还表示，Brockman 经常要求在最后一刻改变计划已久的举措，这促使包括 Mira Murati 在内的其他高管介入以平息事态。

多年来，员工们一直敦促奥特曼约束 Brockman，称他的行为使员工士气低落。今年，奥特曼终于同意让他休假。

虽然 OpenAI 的研究实力毋庸置疑，已在 AI 军备竞赛中确立了竞争优势，但行业发展的未来可能并不完全是由 AI 模型能力决定的。如何建立最好的运营模式，是摆在大模型公司面前的问题。

参考内容：

https://www.wsj.com/tech/ai/open-ai-division-for-profit-da26c24b?st=C8P17G&reflink=desktopwebshare_permalink

https://twitter.com/ylecun/status/1839726968444518772

https://www.nytimes.com/2024/09/27/technology/openai-chatgpt-investors-funding.html

https://www.businessinsider.com/openai-implosion-investors-vcs-2024-9

https://www.theverge.com/2024/9/27/24255177/openai-safety-mira-murati-quit-sam-altman-cofounders-exodus

https://www.reuters.com/technology/artificial-intelligence/openai-sees-116-billion-revenue-next-year-offers-thrive-chance-invest-again-2025-2024-09-28/

....

#从头构建类GPT文本分类器

近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。

文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。对文章内容进行了不改变原意的编译、整理：

为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次，文本分类有许多商业应用场景，比如：垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。

阅读完本文，你将找到以下 7 个问题的答案：

1. 需要训练所有层吗？

2. 为什么微调最后一个 token，而不是第一个 token？

3. BERT 与 GPT 在性能上有何比较？

4. 应该禁用因果掩码吗？

5. 扩大模型规模会有什么影响？

6. LoRA 可以带来什么改进？

7. Padding 还是不 Padding？

完整代码可以从 GitHub 找到：https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb

Different categories of finetuning

微调的不同种类

指令微调和分类微调是最常见的语言模型微调方法。指令微调是用特定任务训练模型，提高它理解和执行自然语言提示中所描述任务的能力，如下图 1 所示。

图 1：指令微调的两种场景。上方：模型的任务是判断文本是否为垃圾邮件；下方：模型的任务是将英文句子翻译成德语。

在分类微调中，模型被训练用于识别特定的类别标签，比如「垃圾邮件」和「非垃圾邮件」。分类任务还包括从图像中识别不同的植物、给新闻按体育、政治或科技等主题分类，从医学影像中区分良性和恶性肿瘤等等。

不过经过分类微调的模型只能判断类别，不能对输入的文本作出其他判断。

图 2：一个使用 LLM 进行垃圾邮件分类的示例。针对垃圾邮件分类微调的模型在输入时不需要额外的指令，然而，与指令微调模型相比，它的回答只能是「垃圾邮件」和「非垃圾邮件」。

指令微调的模型通常能够执行更广泛的任务。我们可以将分类微调的模型视为是高度专业化的模型，一般来说，开发一个专用模型比开发一个在各种任务上表现良好的通用模型更容易。

使用预训练权重初始化模型

下图中展示了将通用预训练 LLM 转变为专门用于分类任务的 LLM 需要做的修改：

图 3：在此跳过步骤 1-5，直接进入步骤 6（将在下一节开始）。

在做修改之前，让我们先简单了解一下正在使用的预训练 LLM。为简便起见，假设我们设置了如下代码来加载该模型：

model = GPTModel (BASE_CONFIG)


load_weights_into_gpt (model, params)


model.eval（)

在将模型权重加载到 GPT 后，使用下列文本生成的函数库，确保模型生成连贯的文本：

from chapter04 import generate_text_simple


from chapter05 import text_to_token_ids, token_ids_to_text


text_1 = "Every effort moves you"


token_ids = generate_text_simple (


    model=model,


    idx=text_to_token_ids (text_1, tokenizer),


    max_new_tokens=15,


    context_size=BASE_CONFIG ["context_length"]


)


print (token_ids_to_text (token_ids, tokenizer))

根据以下输出，我们可以看到模型生成了连贯的文本，这表明模型权重已正确加载：

Every effort moves you forward.


The first step is to understand the importance of your work

让我们先看看模型是否可以通过指令微调完成垃圾邮件的分类：

text_2 = (


    "Is the following text'spam'? Answer with 'yes' or 'no':"


    "'You are a winner you have been specially"


    "selected to receive $1000 cash or a $2000 award.'"


)


token_ids = generate_text_simple (


    model=model,


    idx=text_to_token_ids (text_2, tokenizer),


    max_new_tokens=23,


    context_size=BASE_CONFIG ["context_length"]


)


print (token_ids_to_text (token_ids, tokenizer))

模型的输出如下所示：

Is the following text'spam'? Answer with 'yes' or 'no': 'You are a winner you have been specially selected to receive $1000 cash or a $2000 award.'


The following text'spam'? Answer with 'yes' or 'no': 'You are a winner

可以明显看出模型在准确遵循指令方面遇到了一些挑战。这是可以预见的，因为它仅经过了预训练，缺乏指令微调。

加入分类头

我们将原始输出层（这层的功能是将模型内部生成的隐藏表示转换为一个包含 50,257 个 tokens 的词表）替换为一个较小的输出层，该层映射到两个类别：0（非垃圾邮件）和 1（垃圾邮件），如下图 4 所示。

图 4：此图展示了如何通过改变架构将 GPT 模型适配为垃圾邮件分类。最初，模型的线性输出层将 768 个隐藏单元映射到一个包含 50,257 个 tokens 的词汇表。为了进行垃圾邮件检测，这一层被替换为一个新的输出层，该层将相同的 768 个隐藏单元映射到两个类别，分别表示「垃圾邮件」和「非垃圾邮件」。

输出层节点

从技术上讲，因为这是一个二元分类任务，可以只用一个输出节点。然而，这将需要修改损失函数。因此，我们选择一种更通用的方法，匹配输出节点与分类的数量。例如，对于一个分三类的问题，如将新闻文章分类为「科技」、「体育」或「政治」，使用三个输出节点，依此类推。

在尝试进行图 4 中所示的修改之前，先通过 print (model) 输出模型架构：

GPTModel (


  (tok_emb): Embedding (50257, 768)


  (pos_emb): Embedding (1024, 768)


  (drop_emb): Dropout (p=0.0, inplace=False)


  (trf_blocks): Sequential (


...


    (11): TransformerBlock (


      (att): MultiHeadAttention (


        (W_query): Linear (in_features=768, out_features=768, bias=True)


        (W_key): Linear (in_features=768, out_features=768, bias=True)


        (W_value): Linear (in_features=768, out_features=768, bias=True)


        (out_proj): Linear (in_features=768, out_features=768, bias=True)


        (dropout): Dropout (p=0.0, inplace=False)


      )


      (ff): FeedForward (


        (layers): Sequential (


          (0): Linear (in_features=768, out_features=3072, bias=True)


          (1): GELU ()


          (2): Linear (in_features=3072, out_features=768, bias=True)


        )


      )


      (norm1): LayerNorm ()


      (norm2): LayerNorm ()


      (drop_resid): Dropout (p=0.0, inplace=False)


    )


  )


  (final_norm): LayerNorm ()


  (out_head): Linear (in_features=768, out_features=50257, bias=False)


)

如上所示，GPTModel 由嵌入层和 12 个相同的 transformer 块组成，为简洁起见，仅显示最后一个块，然后是最终的 LayerNorm 和输出层 out_head。

接下来，我们将 out_head 替换为一个新的输出层，如图 4 所示，我们将对这一层进行微调。

选择微调特定层与微调所有层

我们不必对模型每一层进行微调，因为神经网络的较低层捕捉到的基本的语言结构和语义是通用的，可以在许多不同的任务和数据集中发挥作用。

因此，我们仅微调最后几层（靠近输出的层）就够了，这些层更具体于细微的语言模式和任务特征。这种方法在计算上也将更加高效。

为了准备进行分类微调，首先我们冻结模型，即将所有层设置为不可训练：

for param in model.parameters ():


    param.requires_grad = False

然后，如图 4 所示，我们修改输出层 model.out_head ：

torch.manual_seed (123)


num_classes = 2


model.out_head = torch.nn.Linear (


    in_features=BASE_CONFIG ["emb_dim"],


    out_features=num_classes


)

注意，在上述代码中，我们使用了 BASE_CONFIG ["emb_dim"]，它的值在 “gpt2-small（124M）” 模型中为 768。这样做的目的是为了让后续的代码更加通用，相同的代码也能处理其他型号的 GPT-2 模型。

新的 model.out_head 输出层的 requires_grad 属性默认设置为 True，这意味着这是模型中唯一会在训练期间更新的层。

从技术上讲，只训练刚刚添加的输出层就足够了。然而，我在实验中发现，微调额外的层，可以显著提高微调模型的预测性能。

此外，我们将最后一个 transformer 块以及连接该块与输出层的 LayerNorm 模块设置为可训练，如图 5 所示。

图 5：用我的步骤开发的 GPT 模型包含 12 个重复的 transformer 块。除了输出层，我们将最后的 LayerNorm 和最后一个 transformer 块设置为可训练，而其余 11 个 transformer 块和嵌入层保持为不可训练。

为了做到这点，我们将它们各自的 requires_grad 设置为 True：

for param in model.trf_blocks [-1].parameters ():


    param.requires_grad = True


for param in model.final_norm.parameters ():


    param.requires_grad = True

尽管我们添加了一个新的输出层，并将某些层设置为不可训练，我们仍然可以使用这个模型。例如，我们可以像之前那样输入一段示例文本：

inputs = tokenizer.encode ("Do you have time")


inputs = torch.tensor (inputs).unsqueeze (0)


print ("Inputs:", inputs)


print ("Inputs dimensions:", inputs.shape)

如输出所示，上述代码将输入编码为一个包含 4 个输入 tokens 的张量：

Inputs: tensor ([[5211,  345,  423,  640]])


Inputs dimensions: torch.Size ([1, 4])

然后，我们将编码后的 token IDs 输入模型：

with torch.no_grad ():


    outputs = model (inputs)


print ("Outputs:\n", outputs)


print ("Outputs dimensions:", outputs.shape)

输出张量如下所示：

Outputs:


 tensor ([[[-1.5854,  0.9904],


          [-3.7235,  7.4548],


          [-2.2661,  6.6049],


          [-3.5983,  3.9902]]])


Outputs dimensions: torch.Size ([1, 4, 2])

模型将输出一个 [1, 4, 50257] 的输出张量，其中 50,257 代表词汇表的大小。输出行数对应于输入标记的数量（在本例中是 4）。每个输出的嵌入维度（列数）现在减少到 2，而不是 50,257，因为我们替换了模型的输出层。

由于我们的主要目标是微调出更擅长对垃圾邮件进行分类的模型。为了实现这一点，我们不需要对所有行进行微调，可以专注于一个单一的输出 token。具体来说，我们将专注于最后一行，对应的最后一个输出 token，如图 6 所示。

图 6: 本图展示了 GPT 模型处理一个包含 4 个 token 的输入示例，并生成相应输出的详细过程。模型的输出层经过调整，输出张量仅包含 2 列，为了完成分类微调，我们专注于输出的最后一行，对应的最后一个 token。

可以使用以下代码从输出张量中提取最后一个输出 token：

print ("Last output token:", outputs [:, -1, :])

Print 出来结果如下：

Last output token: tensor([[-3.5983,  3.9902]])

那么，我们为什么要选择最后一个 token，而不是其他位置上的 token 呢？

注意力机制建立了每个输入 token 与其他 token 之间的关系，为了让「注意力」集中，需要用到因果注意力掩码。它的原理是限制每个 token 只关注自己和前面的 token，如下图 7 所示：

图 7：因果注意力机制，矩阵显示了每个输入 token 之间的注意力得分。空白单元格表示被掩码屏蔽的位置，防止 token 关注后来的 token。最后一个 token「time」是唯一需要为所有之前的 token 计算注意力得分的 token。

如图所示，序列中的最后一个 token 积累了最多的信息，因此，在微调过程中，我们重点关注这个最后的 token。

如何将最后一个 token 转换为分类标签预测，并计算模型的初始预测准确率。接下来，我们将在后续部分微调模型以完成垃圾邮件分类任务。

评估模型性能

由于这部分内容已经很长，我就不详细讨论模型评估的细节了。不过，我想至少分享一张图，展示训练过程中，模型训练集和验证集的分类准确率，以展示模型确实学得很好。

图 8：训练准确率（实线）和验证准确率（虚线）在早期的训练周期中大幅上升，然后趋于平稳，达到了几乎完美的准确率 1.0，对应 100%。两条线在整个训练过程中相距较近，表明模型对训练数据并没有过度拟合。

模型的验证准确率约为 97%。测试准确率约为 96%。此外，我们可以看到模型略微有一点点过拟合，因为训练集的准确率稍高。

从补充实验得出的洞见

到这里，你可能对某些设计选择有很多疑问，所以我进行了一些补充实验并把结果分享了出来。重新运行这些实验的代码已经放在了以下 GitHub 项目中。

GitHub 地址：https://github.com/rasbt/LLMs-from-scratch/tree/main/ch06/02_bonus_additional-experiments

需要训练所有层吗？

出于效率原因，我们仅训练输出层和最后一个 transformer 块。如前所述，对于分类微调，无需更新 LLM 中的所有层。我们更新的权重越少，训练速度就越快，因为我们不需要在反向传播期间计算权重的梯度。

但是，你可能想知道如果不更新所有层，我们会留下多少预测性能。因此，在下表中，我对所有层、仅最后一个 transformer 块（包括最后一层）、仅最后一层进行了微调。

表 1：训练所有层 vs 仅训练最后一个 Transformer 块（包括最后一层）vs 仅训练最后一层

如上表 1 所示，训练所有层的性能稍好一些：96.67% vs 95.00%。不过，这使运行时间增加了约 2.5 倍。

为什么要微调最后一个 token，而不是第一个 token？

如果你熟悉 BERT（Devlin et al. 2018）等编码器式语言模型，你可能知道这些模型有一个指定的分类 token 作为其第一个 token，如下图所示：

图来自 BERT 原始论文：https://arxiv.org/abs/1810.04805

与 BERT 相比，GPT 是一种具有因果注意力掩码的解码器式模型（如图 7 所示）。这意味着第一个 token 没有输入中任何其他 token 的上下文信息。只有最后一个 token 具有有关所有其他 token 的信息。

因此，如果我们想使用像 GPT 这样的模型进行分类微调，我们应该关注最后一个 token 标记以捕获所有其他输入 token 的上下文信息。

如下表所示，我们可以看到使用第一个 token 来微调 GPT 模型进行分类会导致性能更差。

表 2：微调 GPT 模型中的最后一个 token 与第一个 token。

BERT 与 GPT 的性能比较如何？

说到 BERT，你可能想知道它在分类任务上与类 GPT 模型的性能比较如何？简单来说，在垃圾邮件分类任务上，更小的 GPT-2（124M）与更大 BERT（340M）的性能类似，具体如下表 3 所示。

表 3：GPT-2 与 BERT 的结果比较。

可以看到，BERT 模型的表现比 GPT-2 稍微好一点（测试准确率高 1%），但 BERT 的参数规模几乎是 GPT-2 的 3 倍。此外，数据集可能太小且太简单了，因此我又在 IMDB Movie Review 数据集上尝试比较了情感分类表现（即预测观看者是否喜欢一部电影）。

表 4：GPT-2 与 BERT 在影评分类任务上的比较。

可以看到，在这个更大的数据集上（包含 25k 训练和 25k 测试集记录），GPT-2 与 BERT 两个模型的预测性能同样类似。

总的来说，在分类任务上，BERT 和其他编码器风格的模型被认为优于解码器风格的模型。但是，实验结果也表明，编码器风格的 BERT 和解码器风格的 GPT 模型之间没有太大的差异。

此外，如果你对更多基准比较以及如何进一步提升解码器风格模型的分类性能感兴趣，可以参阅以下两篇最近的论文：

Label Supervised LLaMA Finetuning：https://arxiv.org/abs/2310.01208
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders：https://arxiv.org/abs/2404.05961

其中第一篇论文讨论了：在分类微调期间移除因果掩码可以提升解码器风格模型的分类性能。

我们应该禁用因果掩码吗？

当我们在下一个词（next-word）预测任务上训练类 GPT 模型时，GPT 架构的核心特征是因果注意力掩码，这与 BERT 模型或原始 transformer 架构不同。

但实际上，我们可以在分类微调阶段移除因果掩码，从而允许我们微调第一个而不是最后一个 token。这是因为未来的 tokens 将不再被掩码，并且第一个 token 可以看到所有其他的 tokens.

有 / 无因果掩码的注意力权重矩阵。

幸运的是，在类 GPT 大语言模型中禁用因果注意力掩码只需要改变 2 行代码。

class MultiheadAttention (nn.Module):


    def __init__(self, d_in, d_out, context_length, dropout, num_heads):


        super ().__init__()


        # ...


    def forward (self, x):


        b, num_tokens, d_in = x.shape


        keys = self.W_key (x)  # Shape: (b, num_tokens, d_out)


        queries = self.W_query (x)


        values = self.W_value (x)


        # ...


        attn_scores = queries @ keys.transpose (2, 3)


        # Comment out the causal attention mask part


        # mask_bool = self.mask.bool ()[:num_tokens, :num_tokens]


        # attn_scores.masked_fill_(mask_bool, -torch.inf)


        attn_weights = torch.softmax (


             attn_scores /keys.shape [-1]**0.5, dim=-1


        )


        context_vec = (attn_weights @ values).transpose (1, 2)


        context_vec = context_vec.contiguous ().view (


            b, num_tokens, self.d_out


        )


        context_vec = self.out_proj (context_vec)


        return context_vec

下表 5 展示了改变代码后对垃圾邮件分类任务带来的影响。

表 5：有无使用因果注意力掩码来微调 GPT-2 分类器的结果。

可以看到，在微调阶段禁用因果掩码可以带来略微的提升。

增加模型大小会带来哪些影响？

目前为止，我们只看到了最小的 GPT-2（124M）模型的性能，那么与规模更大的 GPT-2 变体相比如何呢？比如 GPT-2 medium（355M）、GPT-2 large（774M）和 GPT-2 XL（1558M）。结果如下表 6 所示。

表 6：不同参数规模的 GPT-2 变体的分类微调结果。

可以看到，随着模型参数增加，预测准确率显著提升。不过 GPT-2 medium 是个例外，它在其他数据集上的性能同样很差。我怀疑该模型可能没有经过很好的预训练。

此外，最大的 GPT-2 XL 获得了比最小的 GPT-2 small（124M）好得多的分类准确率，但微调时间也长了 7 倍。

LoRA 预计能带来哪些改进？

回到本文第一个问题：我们需要训练所有层吗？结果发现，当仅仅微调最后一个 transformer 块而不是整个模型时，我们可以（或几乎可以）匹配分配性能。所以仅仅微调最后一个块的优势在于训练速度更快，毕竟不是所有的权重参数都要更新。

接下来的问题是与低秩适应（LoRA）的比较结果如何，LoRA 是一种参数高效的微调技术。

表 7：覆盖所有层的完整微调 vs 利用 LoRA 的参数高效微调。

可以看到，完整微调（所有层）和 LoRA 在数据集上获得了相似的测试集性能。

在小模型上，LoRA 会稍微慢一点，添加 LoRA 层带来的额外开销可能会超过获得的收益。但当训练更大的 15 亿参数模型时，LoRA 的训练速度会快 1.53 倍。

填充（Padding）还是不填充？

如果我们想要在训练或推理阶段分批次地处理数据（包括一次处理多个输入序列），则需要插入 padding token，以确保训练样本的长度相等。

图中描述了给定批次中的输入文本如何在 padding 过程中保持长度相等。

在常规文本生成任务中，由于 padding tokens 通常要添加到右侧，因而 padding 不影响模型的响应结果。并且由于前面讨论过的因果掩码，这些 padding tokens 也不影响其他 token。

但是，我们对最后一个 token 进行了微调。同时由于 padding tokens 在最后一个 token 的左侧，因此可能影响结果。

如果我们使用的批大小为 1，实际上不需要 pad 输入。当然，这样做从计算的角度来看更加高效（一次只处理一个输入样本）。并且批大小为 1 可以用作一个变通方法，来测试使用 padding 是否影响结果。

表 8：有无 padding 时，GPT-2（124M）的训练准确率、验证准确率和测试准确率变化。

可以看到，避免 padding tokens 的确可以为模型带来效果的显著提升。这里使用了梯度累计来模拟批大小 8，以匹配默认实验的批大小，并进行公平比较。

作者介绍

个人主页：https://sebastianraschka.com/

Sebastian Raschka 是一名机器学习和人工智能研究员，曾在威斯康星大学麦迪逊分校担任统计学助理教授，专门研究深度学习和机器学习。他致力于关于 AI 和深度学习相关的内容更简单易懂。

Sebastian 还热衷于开源软件，十多年来，他一直是一个充满热情的开源贡献者。他提出的方法现已成功在 Kaggle 等机器学习竞赛中得到应用。

除了编写代码，Sebastian 还喜欢写作，他撰写了畅销书《Python Machine Learning》（《Python 机器学习》）和《Machine Learning with PyTorch and ScikitLearn》。

这篇博客的内容是他的新书《Build a Large Language Model (From Scratch)》的第六章。

更多研究细节，可参考原博客。

原博链接：https://magazine.sebastianraschka.com/p/building-a-gpt-style-llm-classifier

....

#揭示视觉强化学习可塑性损失的独特机制

从数据增强的隐藏作用出发

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 "可塑性损失"（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

深度强化学习任务中的神经网络实际上面临着更为严峻的可塑性损失问题。这源于强化学习智能体必须通过与环境的持续互动来不断调整其策略，使得非平稳的数据流和优化目标成为深度强化学习范式中的固有特征。值得注意的是，即使在单任务强化学习中，在线数据收集和策略更新也会导致数据分布和优化目标持续动态变化。因此，严重的可塑性损失已然成为制约深度强化学习算法样本利用效率的关键瓶颈。

要突破视觉强化学习样本利用效率低下这一瓶颈，关键在于深入解构深度强化学习中神经网络可塑性损失的细节，从而明确问题的根源。针对这一挑战，来自清华大学、悉尼大学、华盛顿大学、京东探索研究院和南洋理工大学的研究人员展开了一项全面而深入的研究。他们选取视觉强化学习任务作为深度强化学习的典型代表，创新性地从数据、模块和训练阶段三个关键角度对神经网络的可塑性损失特征进行分析。

论文链接：https://arxiv.org/abs/2310.07418
代码链接：https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

这项研究不仅解释了视觉强化学习中一些此前难以理解的反常现象，还揭示了一系列与直觉相悖的有趣结论。该研究成果已在 ICLR 2024 上发表，本文将对其中一系列引人深思的发现进行进一步梳理和总结。其中最核心的要点可概括如下：

1. 揭示了数据增强的作用机制：简单的数据增强能够显著提升视觉强化学习的样本利用效率，其效果令人瞩目。在自动驾驶任务 CARLA 中，引入数据增强将性能提高至基准的 235%。更令人惊讶的是，在 DeepMind Control suite 的 9 种机器人控制任务中，数据增强平均将性能提升至基准的 431%。然而，尽管这些惊人的效果早已被观察到，但数据增强为何能带来如此显著的性能提升一直是一个未解之谜。该研究的突破性发现揭示了视觉强化学习中数据增强背后的作用机制：它能直接有效地缓解训练过程中的可塑性损失。

2. 明确了样本利用效率的关键瓶颈：过去多年，学界普遍认为导致视觉强化学习样本利用效率低下的主要瓶颈在于训练视觉表征器的难度。然而，这项研究通过一系列巧妙的实验，颠覆了这一长期以来的观点。研究结果表明，目前限制视觉强化学习样本利用效率的关键因素并非编码器（Encoder）的视觉表征能力，而是评价者网络（Critic）的可塑性损失。

3. 突出了训练早期干预的重要性：可塑性损失指的是模型的学习能力随着训练不断减弱的现象。然而，不同训练阶段对于避免灾难性可塑性损失的作用是否有所不同，这一问题此前一直未被深入探索。该研究填补了这一空白，揭示了一个关键发现：训练早期对 Critic 网络可塑性的干预极为重要：若未能在训练早期及时将网络可塑性恢复到高水平，将会导致训练后期难以逆转的灾难性可塑性损失。

从视觉强化学习中的数据增强开始

数据增强已成为实现高样本利用效率的视觉强化学习算法中不可或缺的组件。与监督学习中数据增强仅带来渐进式改进不同，在多种视觉强化学习任务中，数据增强对算法效果起到了决定性作用。如上图所示，在不使用数据增强的情况下，算法几乎无法训练出有效的策略。相反，仅仅引入对输入观察图像的简单数据增强，就能在不修改算法其他部分的前提下，实现一个具有高渐进效果和样本效率的视觉强化学习算法。

这种显著的提升显然无法用传统视觉任务中数据增强的作用机理来解释。更可能的是，数据增强有效缓解或解决了强化学习中的一个关键瓶颈。在没有数据增强的情况下，智能体的性能在短暂上升后几乎停滞，这一现象与智能体遭受可塑性损失，无法从新收集的数据中学习的后果非常吻合。基于这一观察，该研究设计了巧妙的实验，旨在验证数据增强的背后作用机制是否确实在于有效缓解了灾难性的可塑性损失。

Reset 是一种简单而直接的方法，通过周期性地重新初始化智能体网络最后几层全连接层来恢复神经网络的可塑性。在这项研究中，研究人员巧妙地将 Reset 作为一种诊断工具，用来判断使用与不使用数据增强时网络的可塑性损失情况。实验结果揭示了以下关键发现：

在不使用数据增强的情况下，实施 Reset 均能够带来显著的性能提升。这明确地表明，在缺乏数据增强的训练过程中，网络确实经历了严重的可塑性损失。
但当引入数据增强后，Reset 的实施只带来轻微的改善，有时甚至会导致性能下降。这一结果表明，只通过数据增强就能有效提升智能体的可塑性。

这一巧妙的实验证明数据增强能够非常显著地缓解视觉强化学习训练过程中的可塑性损失，从而解释了为什么数据增强对于提高样本利用效率如此关键。通过有效维持神经网络的可塑性，数据增强实际上延长了神经网络的有效学习期，使其能够更充分地利用每一个训练样本。

研究还对比了数据增强和其他先前提出的用来缓解可塑性损失的方法。实验结果再次证明，作为一种从数据角度出发（data-centric）的方法，数据增强在缓解可塑性损失方面展现出卓越的效果，相对于目前已有的其他方案具有明显优势。

解构视觉强化学习不同模块中可塑性损失的不同影响

相较于基于状态向量的强化学习任务，视觉强化学习一直面临着样本利用效率严重低下的困扰。近年来，缩小基于图像和基于状态向量的强化学习在样本利用效率上的差距已成为整个视觉强化学习社区关注的重点。这两种学习范式的关键区别在于：视觉强化学习需要在进行策略优化的同时进行表征学习。基于这一认识，大量研究致力于通过改进视觉表征学习来提升视觉强化学习的样本利用效率。常见的方法包括添加额外的辅助表征任务，或使用预训练的视觉编码器（Encoder）。但是，高维视觉表征真的是影响视觉强化学习样本利用效率的关键瓶颈吗？

该研究通过一个巧妙的实验回答了这个问题。研究者采用了 PIE-G 提出的预训练编码器方案，并测试了数据增强对训练过程的影响。这个实验设计有两个关键点：

使用在 ImageNet 上预训练的编码器，确保了足够的视觉表征能力。
在整个训练过程中保持编码器不变，排除了数据增强对编码器的直接影响。

研究假设：如果表征学习是当前限制样本利用效率的关键，或者可塑性损失主要发生在编码器，那么数据增强的使用与否不应显著影响算法的训练过程。

然而，实验结果令人惊讶：

数据增强对基于预训练编码器的视觉强化学习的样本利用效率产生了显著影响。
在不使用数据增强的情况下，即使是简单的 Walker Walk 任务，智能体的性能在训练后期也明显停滞，表现出严重的可塑性损失。

这一发现具有重要意义：即使有了良好的视觉表征，视觉强化学习仍然存在严重的可塑性损失。这表明对于当前的视觉强化学习算法，高维视觉的表征已经不构成影响样本利用效率的关键瓶颈。更为关键的是，该实验证明了严重的可塑性损失并非发生在编码器模块，而应该是存在于 Actor 或 Critic 中。

研究者进一步使用可塑性注入（Plasticity Injection）作为可靠的诊断工具来最终判定灾难性的可塑性损失究竟发生在 Actor 还是 Critic 中。不同于 Reset，可塑性注入在恢复网络可塑性的同时不会破坏网络现有知识，因此不会出现明显的性能波动。这使得可塑性注入更适合用来作为判断特定网络模块是否发生灾难性可塑性损失的诊断工具。

实验结果揭示了两个关键发现：

在使用数据增强的情况下，对 Actor 或者 Critic 实施可塑性注入都不会明显影响智能体的训练过程。这表明在 Walker Run 任务中，仅仅通过使用数据增强就足以维持训练所需的网络可塑性。
在初始 100 万步训练中不使用数据增强的情况下，对 Critic 实施可塑性注入会导致性能显著提升。相反，对 Actor 进行可塑性注入也并不能使智能体恢复正常训练。这一结果充分证明，Critic 严重的可塑性损失是造成视觉强化学习样本利用效率严重低下的关键原因。

分析视觉强化学习不同训练阶段中可塑性损失的不同性质

最后，该研究设计了一个巧妙的实验，通过在训练过程中的不同时间点开启或关闭数据增强，来探究数据增强在不同训练阶段对解决可塑性损失的影响。具体来说，他们在训练进行到三分之一时改变数据增强的使用状态，观察其对训练效果的影响。这个实验揭示了两个重要发现：

在 Critic 的可塑性已经恢复后停止使用数据增强，并不会明显影响训练效率。这表明在训练的后期，不需要采取特定干预来维持可塑性。
当可塑性已经显著丧失，且未能在早期阶段及时干预的情况下，后期引入数据增强也无法使智能体恢复正常的训练。这一观察强调了在训练早期维持可塑性的至关重要性，否则，这种损失将变得无法挽回。

这一实验不仅证实了数据增强在训练早期阶段的关键作用，更重要的是，它揭示了可塑性损失的不可逆特性。实验结果表明，如果在训练早期没有通过有效干预（如数据增强）使 Critic 网络的可塑性恢复到较高水平，就会导致不可逆的灾难性可塑性损失。

在训练的初始阶段，由于收集到的经验数据质量低且数量有限，通过自举学习所得出的训练目标（Target Q Value）表现出高度的非平稳性，并显著偏离真实的 Q 值。这种严重的非平稳性导致 Critic 的可塑性迅速下降，使其失去从新收集数据中继续优化策略的能力。随之，智能体持续收集低质量的数据，形成了一个恶性循环。这一连锁反应最终阻碍了智能体获得有效策略，导致训练早期阶段出现灾难性的可塑性损失。

然而，训练过程的后期呈现出不同的特征：尽管 Critic 的可塑性在训练早期恢复到高水平后仍然会缓慢下降，但这种下降可以被理解为逐步逼近当前任务最优值函数的过程。对于不需要智能体保持持续学习能力的单任务视觉强化学习而言，这种后期的可塑性损失被视为良性的。

这种在训练不同阶段所观察到的可塑性变化差异，为解决视觉强化学习中的可塑性损失挑战提供了新的视角，暗示了针对训练不同阶段采取差异化策略的可能性。

基于对视觉强化学习中可塑性损失的深入分析，该研究最终提出了一种创新的训练方法 —— 自适应回放比例。这种方法巧妙地根据 Critic 网络的可塑性水平动态调整回放比例（Replay Ratio），成功破解了视觉强化学习算法难以使用高回放比例的长期困境。对该方法的技术细节感兴趣的读者，可以前往论文原文深入了解。

#Oryx

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构

本文的主要作者来自清华大学智能视觉实验室（i-Vision Group）、腾讯公司和南洋理工大学 S-Lab。本文的共同第一作者为清华大学自动化系博士生刘祖炎和南洋理工大学博士生董宇昊，主要研究方向为多模态模型。本文的通讯作者为腾讯高级研究员饶永铭和清华大学自动化系鲁继文教授。

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

为了解决上述问题，来自清华大学、腾讯、南洋理工大学的研究者们提出一种更灵活的多模态模型 Oryx。Oryx 是一种统一的多模态架构，能够处理图像、视频和多视角 3D 场景，提供了一种能够按照需求处理任意空间大小和时间长度视觉输入的解决方案。

Oryx 的核心创新点包括：一个预训练的 OryxViT 模型，能够将任意原始分辨率的图像编码为视觉 token；一个动态压缩模块，支持按需对视觉 token 进行 1 倍到 16 倍的压缩。上述设计使 Oryx 能够在处理不同需求下的任务时保持更高的效率和精度。此外，Oryx 通过增强的混合数据和针对上下文检索、空间感知数据的训练，在多模态融合上取得了更强的能力。

项目地址：https://oryx-mllm.github.io/
论文：https://arxiv.org/abs/2409.12961
代码：https://github.com/Oryx-mllm/Oryx
Demo：https://huggingface.co/spaces/THUdyh/Oryx

1. 介绍

现有方法简单地将各种视觉输入统一处理，忽略了视觉内容的差异和不同应用的具体需求。例如，早期的 MLLM 将视觉输入转化为固定分辨率；近期的 MLLM 通过动态切分方式生成高分辨率的视觉表示。然而，由于缺乏支持原始分辨率输入的高质量视觉编码器，这些解决方案仍然是一种妥协。我们认为，提供原始分辨率的视觉输入具有以下优势：利用整个图像输入以防止信息丢失；解决边缘情况；提高效率和自然性；具有更高的性能等。

图 1：按需求理解的概念。

如图 1 所示，在分辨率和压缩比上的优化可以提高效率，满足实际需求。例如，高分辨率对于与文本相关的任务更重要，而对象层次的任务只需要简单的图像，部分应用场景需要总结极长的视频，其他应用场景需要对每一帧保持高精度。因此，支持时空上的任意分辨率是一种更通用和高效的方案。

为了解决以上挑战，本文提出了一个统一的时空理解 MLLM 框架 Oryx，能够在按需方式下处理任意视觉分辨率、不同时间长度和多样化的任务。Oryx 的主要贡献包括：

预训练视觉编码器 OryxViT。通过自适应位置嵌入层和变长自注意力机制，能够并行处理原始分辨率的视觉表示，更加适合语言模型。
动态压缩模块。能够任意调整下采样比例，支持 1 倍到 16 倍压缩的无缝切换，保持精度和长度上的取舍。
更好的数据和训练策略，能够在图像、视频和 3D 数据理解上取得优异的性能。

我们提供了 7B/34B 两种尺度的 Oryx 模型，在视频、图像和 3D 理解任务上表现出色，在 7B 规模下取得了综合最好的结果，34B 模型超越了部分 72B 模型的性能，在部分数据集超过 GPT-4o、GPT-4V 等模型，成为开源模型的新标杆。

2. 方法概览

图 2：Oryx 方法总览图。

原始分辨率表示

此前在图像理解上的工作证明，保持视觉内容的原始形式具有更高的有效性。然而，原始分辨率在 MLLM 上的应用还未得到探索。我们认为，MLLM 实际上是一个应用原始分辨率的最好环境：视觉输入的来源更加多样，具有不同的需求和格式；语言 token 长度本质是动态的，因此视觉的动态表示可以无缝与后续阶段对接。

现有的解决方案证明，传统的视觉编码器无法处理原始分辨率输入。因此，我们基于 SigLIP 模型提出 OryxViT 视觉编码器。OryxViT 通过将位置嵌入矩阵进行缩放插值适应输入内容。我们通过轻量级的语言模型作为接口，训练视觉编码器的参数，从多个多模态任务下获取数据进行训练，得到 OryxViT 模型。

为了解决批处理过程中动态的序列长度问题，我们在通道维度上对不同长度的序列进行拼接，通过可变长自注意力操作，独立计算每个视觉输入的注意力矩阵，因此 OryxViT 可以高效处理不同纵横比的视觉信号，并保持与固定分辨率编码器相同的推理速度。

动态压缩模块

在处理不同长度的视觉输入时，对所有输入一视同仁会降低总体计算效率。我们通过动态压缩模块实现更高比例的压缩，并将不同压缩比的视觉内容统一成一致的模式，从而能够按需控制视觉序列的长度。我们对图像、视频和长视频应用不同压缩比的下采样层，并设置下采样倍率为 1 倍、4 倍、16 倍，从而实现可变和极高的压缩比。

为了减轻下采样的影响，我们采用区域注意力操作对高分辨率、低分辨率特征图进行交互。低分辨率的图像块作为查询向量，通过交叉注意力操作与高分辨率邻近小块进行交互

其中，我们通过投影层将 Q、K 向量投影到更低的维度，并省略了 V 向量和输出层的投影以保持原始视觉特征。我们通过共享的 MLP 处理不同压缩比的视觉输入，以保持不同视觉输入的一致性。最终的视觉表示被展平后输入到语言模型进行上下文预测。

全能模型：图像、视频、三维理解

我们进一步扩展了此前多任务 MLLM 的能力，处理更多样化的情境、不同长度的内容和更广泛的任务。

视频大海捞针训练。我们认为，处理长视频的关键在于从广泛的上下文中找到特定信息。因此，我们从 MovieNet 数据集中获取视频样本，并通过单帧标题生成和两帧差异识别两个任务对模型进行强化训练。

通过粗略空间关系学习 3D 知识。3D 环境相关的多视图图像缺乏时间或轨迹线索，因此以往的方法在 3D 任务中难以实现正确的空间理解。我们通过粗略空间关系对应的方法，使得模型在多视角中能够跟随和捕捉空间关联。

训练策略、数据组成

Oryx 的训练策略轻量且直接。模型初始化包括视觉编码器 OryxViT 和大语言模型。第一阶段训练仅涉及图像数据，首先在 LLaVA-1.5-558k 图文对中进行简单的对齐预训练，训练动态压缩模块。此后在 4M 高质量图文对中进行有监督微调，这些数据从各种开源学术数据集中获取。需要注意的是，我们没有进行大规模的预训练，也没有使用私有的有监督微调数据以获取更好的性能，我们的主要目标是验证架构的有效性。

在第二阶段，我们通过图像、视频和 3D 理解的多种视觉输入联合训练 Oryx 模型，微调策略与第一阶段类似。我们从第一阶段中抽样 600k 图像数据，并从开源视频数据集中选取多个视频数据集进行混合。此外，我们包含了所提出的视频大海捞针样本、具有粗略空间关系的 3D 样本。这部分引入的视频和多视角数据共 650k。

我们的训练数据均来源于开源数据集，因此确保了 Oryx 的可复现性，并提供了较大的进一步改进空间。

3. 实验结果

通用视频理解

我们选取 4 个选择题评测标准和 3 个回答生成评测标准进行通用视频理解能力的测试。Oryx 在不同尺度的模型下均取得了有竞争力的表现。在带字幕的 VideoMME 数据集中，Oryx 取得 62.6% 和 67.4% 的平均准确率。在 NextQA 和 Perception Test 数据集分别超越此前的 SOTA 结果 3.3% 和 5.4%。在 GPT 评测的标准下，Oryx 表现出色，取得了 1.49、3.53 和 3.76 的平均得分。

长视频理解

为了专门测试在长视频输入下的能力，我们选取了 3 个主流且具代表性的长视频理解基准，包括 MLVU、LongVideoBench 和 VideoMME 长视频子集。Oryx 在理解长视频内容表现出显著的能力，超越了所有现有的 7B 模型系列，34B 模型在 MLVU 和 LongVideoBench 上相比之前最先进的 72B 模型提升了 4.4% 和 0.9% 平均准确率。在 MLVU 测试集下，Oryx-34B 相比 GPT-4o 高出 6.2%。

视频大海捞针

为了测试模型的长视频检索能力，我们进行了视频大海捞针实验。基线模型显示出严重的信息丢失，相比之下，我们的方法在 1.6k 帧输入的情况下仍然能够准确回答问题。

图像理解

Oryx 模型在多种有代表性的图像评测基准下保持了开源模型中第一梯队的水平。

三维空间理解

Oryx 在性能上超越此前为 3D 理解设计的专有模型，也超过最近更新的基于大语言模型的 3D 模型。

分析实验

分辨率和缩放策略的影响。原始分辨率输入明显好于固定尺寸（保持长宽比不变）图像输入，尤其在特定任务下的数据集。在不同视觉输入分辨率下，MMBench 和 OCRBench 性能均有提升，但原始分辨率是相较而言更简单且有效的策略。

Oryx 结构的消融实验。在视觉编码器维度，OryxViT 相比 SigLIP 具有更优异的图像 - 语言对齐性能。通过对原始分辨率和动态切分方法的公平比较，此前的视觉编码器无法处理原始分辨率输入，而基于 OryxViT，原始分辨率方法明显优于动态切分方法。在我们的训练和测试过程中，我们始终保持原始分辨率输入。

对于连接模块，动态压缩模块在视频测试集中表现出更优越的性能，且平均池化具有更好的结果，这可能是由于无参数降采样能够更好地保留视觉特征分布，并减轻训练的优化压力。

4. 案例分析

视频描述和总结任务

基于视频内容的推理和学习

5. 总结

我们提出了 Oryx 系列，一种能够按需处理不同任务、时间长度、视觉分辨率输入的新架构。Oryx 在时空理解上有突出表现，利用 OryxViT 创新地处理原始分辨率，采用动态压缩模块进行高效的数据压缩，并应用了更好的训练策略。Oryx 在各种主流图像、视频和 3D 测试基准中均表现出色。我们希望本工作能够为多模态学习提供一个新视角。

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#SFT Doesn't Always Hurt General Capabilities:

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中，SFT（监督微调）几乎成为主流流程的一部分，被广泛应用于各类下游任务和专用场景。比如，在医疗领域，研究人员往往会用领域专属数据对大模型进行微调，从而显著提升模型在该领域特定任务上的表现。

然而，问题随之而来：SFT 是否会让模型 “遗忘” 原本的通用能力？过去的研究中，不少文献指出，领域微调固然能带来专用性能的提升，但代价是模型在数学推理、代码生成、指令跟随等通用 benchmark 上出现显著退化。这种现象被广泛称为 “灾难性遗忘”。然而，这一长期流传的看法或许值得重新审视。

来自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究团队最新发布的一项工作就给出了不同的答案。研究表明，领域特定的 SFT 并不总是会严重削弱模型的通用能力。相反，在训练中采用更小的学习率，模型就可能在两方面取得平衡：

在通用任务上的能力遗忘被大幅缓解；
在目标领域上的表现依然与大学习率相当。

换句话说，遗忘问题可能更多源于训练策略的选择，而不是单单 SFT 这一范式本身。

论文标题：SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
论文地址：https://arxiv.org/pdf/2509.20758

一句话概括：稍微更小的学习率能大幅度缓解遗忘，TALR 则是进一步平衡的利器。

实验细节：重新审视学习率对 SFT 带来的影响

实验设置

任务与数据。领域侧选择两个现实强相关的场景和领域专属数据集：MedCalc 和 ESCI 。选择这两个数据集的原因在于它们代表了开源 LLM 在现实应用中表现最薄弱的场景，因此也是最有必要做 domain-specific SFT 的场合。

MedCalc（医疗推理）：10.1k 训练 / 1.05k 测试，每条样本含患者笔记与临床指令；SFT 学习的目标为 “推理过程（CoT）+ 最终答案”。指标用 Accuracy。
ESCI（电商商品多分类问题）：49k 训练 / 10k 测试，四类标签（Exact/Substitute/Complement/Irrelevant）。设置分 w/ CoT（推理 + 标签）与 w/o CoT（仅标签）两种；主指标用 Balanced Accuracy (BACC) 以应对类别不均衡。

模型与评测

选取多种规模 / 家族的开源 LLM 做实验：Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。统一采用监督微调（SFT），核心控制变量是学习率（lr），取 1e-6 / 5e-6 / 2e-5 三档，其他训练超参遵循常规 SFT 实践。

SFT 完成后，在不同 lr 下先以目标领域指标挑选最佳 checkpoint，再用 IFEval（指令跟随）/ GSM8K（数学）/ HumanEval（代码）进行 “通用能力” 评测，报告三者的均值作为总分（General performance）。这一流程贴近 “实际落地优先领域效果、随后回看通用能力” 的场景。

实验结果

实验结果如图所示。每个点表示某一 lr 下的（Domain performance，General performance）二元坐标；灰色 “Init” 星形代表微调前的模型性能。

研究发现一：更小的学习率带来更优折中

在 MedCalc 和 ESCI 上，使用更小的学习率（如 1e-6）时，模型能同时保持目标领域的强性能，并显著减轻通用能力的下降。换句话说，灾难性遗忘可以通过学习率控制来大幅度缓解。

研究发现二：对于分类问题，仅分类标签监督放宽了学习率约束

当训练目标只包含最终标签（不需要中间推理链）时，实现理想折中的学习率范围会更宽。在 ESCI (w/o CoT) 的设定下，学习率 5e-6 甚至能表现得和 1e-6 一样好，这与其他情况形成鲜明对比。

作者进一步在大规模数据集 MetaMathQA 上进行实验。MetaMathQA 是一个大规模数学推理数据集，包含 395k 条训练样本。实验采用 DeepSeek-Coder-7B 作为基础模型。这一模型在数学推理任务上原本表现相对薄弱，因此是一个理想的测试对象。

在训练过程中，研究团队使用 MetaMathQA 进行监督微调，并将 GSM8K 作为目标领域的评测基准。结果显示，即便在如此大规模的数据条件下，结论依然保持一致：更小的学习率（在这里 5e-6) 能够在保持数学领域性能的同时（相比于大学习率 2e-5)，显著缓解模型在原来擅长的 Coding 能力的退化。换句话说，论文中提出的发现是同样适用于大规模任务与模型的普适规律。

注：这里的学习率大小都是相对的，不同 task 的能够达到最佳平衡的学习率也不同，比如 MedCalc 和 ESCI 是 1e-6，而 MetaMathQA 是 5e-6。在对应的数据集和最佳学习率下，它们都会尽可能抑制通用能力的遗忘，并且取得和更大学习率相匹敌的下游性能。

理论分析

为了更好地解释这些现象，作者团队进一步从理论分析的角度寻找了支撑性的 insight。

他们首先得到了一个关键结论：较小的学习率能够严格收紧通用性能下降的上界。换句话说，使用更小的分布更新步长意味着模型在提升目标领域表现的同时，更有保障地保留住已有的通用能力。这正好与实验中的 Finding 1 相呼应。

紧接着，团队又给出另一条理论解释：当训练目标只包含最终标签时，模型在每个样本中遇到的 “难 token” 数量减少，从而拓宽了可接受的学习率范围。这也就解释了实验中 ESCI (w/o CoT) 的现象 —— 为什么在没有推理链的情况下，较大的学习率（5e-6) 依然能够保持良好的折中效果。这对应着实验中的 Finding 2。

小结与反思

论文在实证和理论分析的基础上指出，小学习率虽然能显著减轻通用能力的下降，但并不能完全消除这一问题。在某些场景下，即便采用了更小的学习率，仍然会观察到一定程度的通用能力的性能退化。同时，较小的学习率虽然在大多数情况下领域性能与较大学习率相差无几，但在某些任务里差距依然不可忽视。这意味着，如果应用场景里必须优先保证目标领域的最高性能，研究者仍然可能选择使用较大的学习率。但随之而来的问题是：更大的学习率几乎必然带来更严重的通用性能下降。因此，开发额外的缓解策略，尤其是在大学习率条件下抑制遗忘，显得同样重要。

为此，作者团队深入探索更佳的策略。从理论分析进一步得到启发，作者发现导致遗忘的关键因素之一是 hard tokens（低概率 tokens） —— 它们在训练中的更新幅度往往远大于 easy token，从而对通用能力退化有较大影响。这一观察自然引出了新的思路：可以设计 “token 自适应的 reweighting 策略”，在训练时直接降低 hard token 的损失权重，从而抑制它们对通用能力的过度侵蚀。

Token 自适应 Loss 重加权 (TALR)

方法细节

前面的理论分析已经指出，灾难性遗忘的一个重要来源在于 hard token（低概率 token）。一个自然的思路是：在训练时降低这些 hard token 的权重。但问题在于，如何自动识别 hard token，并动态决定它们应该被削弱多少？如果仅仅依赖固定阈值或手工设定参数，不仅缺乏普适性，也难以适配不同模型与任务。

为了解决这个问题，作者团队提出了 TALR（Token-Adaptive Loss Reweighting），即通过建立一个约束优化问题进行求解来获得自适应的权重。其核心思想是：根据每个 token 的预测概率，自适应地分配权重；置信度低（概率小）的 token → 权重更小，从而削弱这些 hard token 在训练中的过度梯度贡献。

这种方法通过建立约束优化问题实现，可以得到解析解，训练时在每个 batch 都会动态更新权重，始终与模型的置信度保持一致。

其中，τ 的选取也是自适应的，由在每个 batch 中依据序列平均损失的中位数动态确定。作者指出，这样的自适应 τ 的选取可以取得一致比较好的结果。若固定温度系数 τ 比如 τ=1，则模型会无法学习领域的知识进而在 domain performance 上表现很差。基于此，整体的算法流程如下：

实验结果

研究团队在 MedCalc 基准上，系统比较了多种具有代表性的灾难性遗忘缓解策略，包括 L2 正则化、LoRA、Wise-FT（模型平均）、FLOW，以及他们新提出的 TALR 方法。实验在两种学习率设定下展开：较小学习率 (1e-6) 和较大学习率 (5e-6)。

小学习率 (1e-6). 结果显示，大多数方法在这一设定下表现接近，几乎都聚集在图像右上区域。这说明单纯降低学习率本身，已经能够在保持领域性能的同时，有效缓解通用能力退化。在小学率下，TALR 与其他方法相比差距不大，但依然展现出更稳定、更平滑的折中表现。

大学习率 (5e-6). 当学习率升高时，通用性能下降的幅度明显加剧，几乎所有方法的点位整体下移。在这种更具挑战性的情况下，TALR 的优势逐渐凸显：无论在 Qwen2.5-3B 还是 Qwen3-4B 模型上，TALR 都能够实现更优的 Pareto 前沿位置，在保持领域增益的同时，显著减少通用性能的损失。

小结：整体来看，当条件允许时，小学习率本身已能带来可靠的折中效果；但在必须依赖较大学习率以进一步提升领域性能时，TALR 展现出显著优势。然而，现有方法仍无法彻底消除高学习率带来的性能退化，这一现象也揭示出未来研究的重要方向 —— 如何探索更强大的缓解策略，以在大学习率下兼顾领域能力和通用性能。

Token 层面的深入分析

作者进一步从 token-level 对 SFT 进行分析，首先是计算 model 对每个训练的 token 的置信度（概率），计算如下。

多数 token 容易，少数 “难点” 成瓶颈

在更细粒度的 token 层面，研究团队进一步揭示了 SFT 过程中隐藏的现象。结果显示，对于一个只能取得不到 10% 准确率的模型，大多数训练数据中的 token 对模型来说学习难度并不大。换句话说，模型往往能够以较高置信度预测这些 token，尤其是在推理链条的中后段，一旦上下文信息积累到位，LLM 很容易继续生成后续 token。

相比较而言，性能非常差的归因于一小部分 “hard tokens”—— 即模型在预测时置信度较低的 token。这类 token 通常出现在序列的早期位置，或是与特定领域的专业概念相关。例如，在 MedCalc 数据集中，涉及临床单位换算的 token 往往被模型赋予较低概率，这可能是因为相关知识在预训练数据中覆盖不足。这些 “hard tokens” 数量稀少，但却可能成为决定性能的关键瓶颈。

统计分析进一步验证了这一趋势：从箱线图中，对于跨多个模型变体的实验，大部分 token 的概率分布上四分位接近 1，说明模型对大多数 token 的学习信心都很高。但与此同时，模型在 MedCalc 这类专用任务上的零样本表现依旧偏低，凸显了少数高难度 token 的重要性。

TALR 的训练动态：隐含 “课程式” 学习

更有趣的是，研究人员发现 TALR 在训练中自发呈现出一种类似 “课程学习（curriculum learning）” 的机制。具体来说，TALR 会减轻置信度过低 token 的梯度更新幅度，优先让模型通过置信度较高的 token 来驱动优化。随着训练逐步推进，越来越多之前被视为 “难点” 的 token 被纳入大幅度更新范围，训练过程由 “易” 到 “难”，自然形成了一种动态的学习路径。这一发现表明，TALR 不仅能在整体上缓解遗忘，还能在细节上为模型学习构建更合理的节奏，使其逐步掌握领域内的关键知识点。

结论与展望

自从 DeepSeek-R1 火了之后，业界普遍兴起了一股 “RL can solve everything” 的浪潮，很多人认为强化学习才是大模型能力提升的终极解法，而 SFT（监督微调）则显得不那么重要，甚至逐渐被忽视。事实上，这种看法忽略了一个根基性的事实：RL 的百花齐放，本质上是建立在高质量 SFT 打下的坚实基础之上的。没有强大的 SFT，RL 很难发挥出现在这样的效果。换句话说，SFT 依然是一切的基石。

在这项研究中，UIUC 和 Amazon 团队提供了实证和理论的双重证据，挑战了 “领域 SFT 会显著损害通用能力” 的普遍认知。通过系统化实验，他们发现：更小的学习率能够带来更优的性能折中，既能保持通用能力，又能提升目标领域表现。在此基础上，团队还提出了 TALR（Token-Adaptive Loss Reweighting），进一步缓解了灾难性遗忘问题。

展望未来，研究人员也指出，没有单一方法可以彻底解决 SFT 的遗忘问题。小学习率与 TALR 是有效的第一步，但更广泛的数据集、更大规模模型（如 MoE 架构）、以及更系统的理论指导，都有待深入探索。

同时，这项工作也为更好的领域适配提供了重要启发。例如在医学场景中，很多专门化的医疗 LLM 反而不如基础模型，这意味着如何在注入领域知识的同时保留基础模型的通用能力，是未来值得关注的关键方向。

此外，论文还提醒业界：SFT 在 RL 之前的 “预热” 阶段同样至关重要。如果过度 SFT，模型可能会过早稳定化，削弱探索能力，从而影响后续 RL 的效果。因此，如何在保持多样性的同时抑制遗忘，将是下一阶段值得深入研究的重要课题。

总的来说，这项研究不仅重申了 SFT 的价值，也为大模型未来的微调与适配提供了新的思路：RL 可能是显学，锦上添花；但 SFT 仍然是地基，没有它就难以稳如磐石。

....

#RewardMap

通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

本研究由西湖大学 ENCODE Lab 牵头，联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

但一个朴素而尖锐的问题始终横在面前：当视觉信息变得极其繁复、结构密集，模型究竟能不能「看懂图」？比如以高分辨率地铁图为代表的真实场景，既要求精细的视觉感知，又要求跨线路、跨站点的空间推理。

来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题：在高分辨率地铁图等真实场景下，即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出现「看错线」「漏站」「重复路线」等推理幻觉。

团队进一步发现，在高分辨率、信息极其密集的地铁图上，仅依靠最终答案给出成败信号的强化学习，很容易陷入奖励极度稀疏的困境：多数输出几乎得不到任何正反馈，少数「偶然对」的样本又会造成高方差梯度，训练既慢又不稳，这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。

为此，该团队进一步提出 RewardMap：一个围绕真实 map reasoning 任务场景设计的多阶段强化学习框架，用难度感知的细粒度奖励与从易到难的课程式训练，系统提升 MLLMs 的细粒度视觉理解与空间推理能力。

论文标题：RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
论文链接：https://arxiv.org/abs/2510.02240
项目主页：https://fscdc.github.io/RewardMap/
代码：https://github.com/fscdc/RewardMap
数据集：https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

🗺️ ReasonMap-Plus：

为「冷启动」准备的密集监督

团队首先在 ReasonMap 的基础上构建 ReasonMap-Plus，它与 ReasonMap 一致采用高分辨率的地铁/轨交地图，覆盖 30 座城市，共计 4018 个问题样本，并在设计上明确区分了五类更偏感知的细粒度题型（两类 Local Counting、Global Counting、两类 True/False），以便为强化学习阶段提供更细密的监督与可拆解的目标。数据集还给出了易/中/难的难度标签，并在训练/测试划分上保持城市与难度分布的多样性与均衡性。

🧩 我们提出了什么：

RewardMap 框架

RewardMap 的核心思想并不复杂，却紧扣痛点。第一步，用「细节可分解」的奖励把一项路线规划题拆成若干可评估的子目标，让模型不再只有「对/错」两级的冰冷信号；第二步，以「从易到难」的课程式训练组织数据分布，先让模型在更密集、噪声更小的子任务上「热身」，再稳步迁移到真实的路线规划上。

具体而言，RewardMap 包含两大组件：其一是「难度感知的细节奖励」；其二是「多阶段强化学习」，后者显式利用 ReasonMap-Plus 中更易获得稠密信号的问题类型进行冷启动，从一开始就提升训练信噪比并降低不稳定性。

在难度感知上，团队对训练样本的奖励总和施加难度感知权重，综合考虑地图难度以及问题难度两个维度：前者针对 ReasonMap 与 ReasonMap-Plus 的全部地图统一划分为三档；后者在 ReasonMap 的规划题中可由换乘次数来度量，换乘越多、难度越高，权重也越大。

RewardMap 的奖励函数同样体现了「把复杂问题拆成可学信号」的思路。总奖励由三部分组成：格式合规（format）、最终正确性（correctness）与细节项（detail），并由难度权重进行缩放以体现题目的真实复杂度；其中细节项以 α=0.5 的系数参与总分，确保它既能提供稳定梯度，又不会喧宾夺主。

在细节项的具体计算里，我们对「起点/终点是否正确、线路名称是否匹配、换乘站点是否合理、路线分段数是否正确」等要素分别给出加/扣分，形成一个「部分正确即可得分」的连续型信号，而不是过去那种「一票否决」的全或无。

📈 关键结果

那么，RewardMap 在多基准上的综合表现如何？除了在 ReasonMap/ReasonMap-Plus 上带来持续且可复现实验增益之外，我们还将其推广到覆盖「空间推理、细粒度视觉、通用视觉问答」三大类别的六项外部评测。

结果显示，RewardMap 在所有基准上均取得一致提升，其中在 SpatialEval 上的增幅最高，达到 +13.51%；相较之下，传统的 SFT → RL 虽然也有稳定提升，但整体仍弱于 RewardMap。这些结果表明，「细粒度奖励 + 多阶段课程」这一策略不仅在地铁图路径规划上奏效，也能迁移到更宽泛的高分辨率与空间理解任务上。

质化对比同样直观地揭示了改进点。以多城多图的真实样例为参照，配合 RewardMap 训练后的模型更少出现「把线路看错」的视觉混淆，更少出现「把同一路线在答案中重复多次」的幻觉现象，能够更稳健地给出正确的首末站与换乘点，并在路线分段上匹配真实地图结构。

未来展望

站在更宏观的角度，RewardMap 带来的价值不止于「刷榜」。它为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式：把复杂问题拆解为可度量的细节子目标，用难度建模去矫正样本分布的「偏与稀」，再以多阶段课程衔接「感知优先」的子任务与「推理密集」的规划任务。这样一来，模型从「看清楚」到「想明白」的路径被系统化了，训练过程的信噪比与稳定性也随之可控。

同时，基于地图数据的后训练对多模态大模型通用能力的提升也得到了验证，未来地图这类真实数据还将在多模态大模型不同的阶段发挥更大的作用。

....

#LLMs Can Get "Brain Rot"!

喂了几个月的垃圾推文，大模型得了「脑腐」，这病还治不好

天天刷推，大模型的脑子也会坏掉。

终于有研究证明，互联网上的烂内容会让大模型得「脑腐」。

相信许多读者对「脑腐」这个词并不陌生，长时间沉浸在碎片化的网络信息中，我们经常会感到注意力下降、思维变钝。

最近，德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校和普渡大学的一篇论文表明，LLM 也会像人类一样，因长期接触垃圾内容而导致「大脑退化」。

论文标题：LLMs Can Get "Brain Rot"!
论文链接：https://www.arxiv.org/abs/2510.13928
Model & Code：https://llm-brain-rot.github.io/

研究者将数月的病毒性推特数据（短小、互动性强的帖子）喂给模型，并观察到它们的认知崩溃：

推理能力下降了 23%
长期记忆下降了 30%
人格测试显示自恋和心理病态的水平上升

更让人担心的是，即使重新用干净、高质量的数据进行再训练，这些认知上的损伤也无法完全修复，类似「大脑退化」一样的「腐化」现象会持续存在。

这表明，AI 系统就像人类一样，如果长期接触不良信息，可能会导致认知上的永久性变化。

动机

最近几年，「脑腐」这个词突然进入了公众视野，它被用作一种简写，描述无尽的、低质量的、诱导参与的内容如何钝化人类的认知，即通过强迫性的在线消费，侵蚀专注力、记忆纪律和社交判断力。

如果 LLM 从同样泛滥的互联网信息源中学习，那么一个问题就变得不可避免：当我们持续向模型投喂「数字垃圾食品」时，会发生什么？

研究 LLM 的「脑腐」不仅仅是一个吸引眼球的比喻，它将数据策展重新定义为人工智能的「认知卫生」，指导我们如何获取、过滤和维护训练语料库，以使部署的系统能够随着时间的推移保持敏锐、可靠和对齐。

与以往主要关注 LLM 训练数据质量的工作不同，研究者旨在提供一个关于数据质量的新视角，即社交媒体上的内容对人类而言是多么的琐碎且易于消费。这些通过推文的简短性/受欢迎程度或内容语义来概念化的属性，与我们期望 LLM 在学习中掌握的认知能力并没有直观的联系。

概述与实验方法

论文中，研究者提出并验证了「LLM 脑腐病假设」，即持续接触垃圾网络文本会导致大语言模型的认知能力持续下降。

为了从因果关系上剖析数据质量的影响，他们在真实的 Twitter/X 语料库上进行了受控实验，采用两个正交操作化方法构建了垃圾数据集和反向对照数据集：

M1：参与度—— 衡量帖子的受欢迎程度和简短程度。获得高点赞、高转发和高回复的内容（尤其是非常简短的内容）反映了那些吸引注意力但肤浅的信息，这些信息助长了「末日刷屏」，这些被标记为垃圾数据；较长的、传播性较差的帖子则作为对照组。

M2：语义质量—— 评估文本的耸人听闻或肤浅程度。充满点击诱饵语言（如「哇」、「快看」、「仅限今天」）或夸大其词的帖子被标记为垃圾数据，而基于事实的、教育性的或说理性的帖子被选为对照组。

在保持一致的 token 规模和训练操作（包括后续相同的指令微调）后，结果显示：与对照组相比，持续对 4 个 LLM 进行垃圾数据集的预训练，会导致推理、长时记忆理解、安全性以及「黑暗特质」（如心理病态、自恋）方面出现显著下降（Hedges' g > 0.3）。

垃圾数据集和对照数据集的逐渐混合也会导致认知能力呈剂量反应式下降。例如，在 M1 下，随着垃圾数据比例从 0% 上升到 100%，ARC-Challenge（包含 Chain Of Thoughts）的得分从 74.9 下降到 57.2，RULER-CWE 的得分从 84.4 下降到 52.3。

通过分析 AI 模型的错误，研究人员得出了几个重要的发现：

思维跳跃是主要病变：模型越来越频繁地截断或跳过推理链，解释了大部分错误增长。
部分但不完全的恢复：扩大指令调优和干净数据的预训练能够改善认知衰退，但无法恢复到基准水平，表明存在持续的表现漂移，而不是格式不匹配问题。
受欢迎度是更好的指示器：推文的受欢迎程度作为一种非语义度量，比 M1 中的长度更能反映大脑腐化效应。

综上所述，结果提供了重要的多角度证据，表明数据质量是 LLM 能力衰退的因果驱动因素，这重新定义了持续预训练中的数据筛选作为训练阶段的安全问题，并推动了对部署中的 LLM 进行常规「认知健康检查」的必要性。

垃圾数据干预与认知能力下降相关

研究者通过比较向四个 LLM 投喂垃圾/对照数据后的基准差异来分析干预效果。差异是通过计算这 4 个 LLM 的 Hedges' g 值来衡量的。

在上图中，M1 和 M2 都对推理和长上下文能力产生了不可忽视的影响（Hedges' g > 0.3）。

在其余的基准测试中，两种干预的效果出现了分歧，这意味着参与度（M1）并非语义质量（M2）的代理指标，而是代表了数据质量的一个不同维度。

评估 LLaMA (Base) 在使用不同比例的垃圾数据和对照数据进行训练后的表现。颜色表示性能（红色）劣于 / （蓝色）优于该行中的基线模型。所有得分范围为 0 到 100。对于 RULER，我们选择了一部分任务进行展示。缩写：NIAH = 大海捞针，QA = 问答。

在剂量反应测试中，M1（参与度）干预对推理和长上下文能力的影响比 M2（语义质量）干预更为显著和渐进。

研究者分析了 ARC-Challenge 中的推理失败案例，以识别不同的失败模式。他们发现，大多数失败可归因于「思维跳YEAH」，例如模型未能生成中间的推理步骤等，这种情况在受「脑腐」影响的模型中显著增加。

研究结果表明，与「脑腐」相关的认知能力下降，不易通过标准的微调技术得到缓解。即使在进行了大量的指令微调或在高质量对照数据上进行了后期持续预训练之后，模型仍然表现出它们最初接触过的垃圾数据所带来的残留影响。

....

#UniVid

告别「偏科」，UniVid实现视频理解与生成一体化

在视频生成与理解的赛道上，常常见到分头发力的模型：有的专注做视频生成，有的专注做视频理解（如问答、分类、检索等）。而最近，一个开源项目 UniVid，提出了一个「融合」方向：把理解 + 生成融为一体 —— 他们希望用一个统一的模型，兼顾「看懂视频」+「生成视频」的能力。

这就像把「看图识物」和「画图创作」两件事，交给同一个大脑去做：理解一段文字 + 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。

论文标题：UniVid: The Open-Source Unified Video Model
论文地址：https://arxiv.org/abs/2509.24200

UniVid 想解决什么问题？

UniVid 尝试把视频「理解」与「生成」融合为一体，构建出一个真正通用的统一视频模型（Unified Video Model），一个既能「理解」又能「生成」的视频多模态模型。

核心创新

1.统一结构：Adapter-based Unified Architecture

在传统方案中，理解模型和生成模型是完全分开的系统，训练开销大、互通困难。要把它们融合，需要重新训练一个庞大的联合模型，成本极高。

本文采用适配器（Adapter）插入机制，在已有多模态大语言模型中插入轻量模块，使其具备视频生成能力。这样，理解模块 + 生成模块可以共享大部分参数，只需训练少量新增参数。

优势：

显著降低训练开销与算力成本；
提高模型扩展性：已有理解能力的模型能「平滑地」插入生成能力；
兼顾理解与生成，不牺牲已有强大的视觉 / 语言理解基础。

2. 温控对齐：Temperature Modality Alignment

在跨模态（文本 → 视频）生成中，文本与视觉之间表示尺度、语义强度往往不匹配。若直接融合注意力或特征，很容易出现「提示偏移」（Prompt Drift）：生成的视频越偏离最初的文字意图。

本文提出模态温度对齐机制（Temperature Modality Alignment）。在跨模态注意力层中对不同模态（文本 / 视觉特征）引入温度系数（类似 softmax 温度调节），动态调节它们的注意力权重与融合强度。在生成过程的早期阶段，更高权重给文本提示以加强语义引导；在后期阶段，则逐渐让视觉特征主导细节优化。

这能够有效减少提示偏移，提高语义一致性；让模型在「理解 → 生成」过程中过渡更自然；保证最终视频既符合提示，又具备高质量视觉细节。

3. 金字塔反射：Pyramid Reflection

视频是时序数据，理解和建模长时域依赖（远帧之间的关联）成本极高。传统 Transformer 全帧注意力的计算量呈平方级增长，难以扩展。

本文提出金字塔反射机制（Pyramid Reflection）：

在理解任务中采用 Reflector 模块，通过动态选择关键帧，并在金字塔层次上进行「反射 / 聚合」操作；
将帧序列映射到不同时间尺度，自底向上或自顶向下反射信息，使模型能在多个尺度上捕捉时序关系。

在视频 QA / 时序理解任务中，PR 模块结合 Actor – Evaluator – Reflector 循环结构，让模型能用最少的帧达到准确推理结果。

实验结果：打败 SOTA？

UniVid 在视频生成与理解两大方向上，都达到了同级模型最优表现。

1. 视频生成：VBench 全维度刷新记录

测试基准：VBench-Long，是目前最严格的视频生成综合评测集，涵盖多个维度：

技术质量（Technical Quality）
美学质量（Aesthetic Quality）
语义一致性（Semantic Fidelity）
对象 / 动作 / 场景 / 时序等细粒度指标

UniVid 的成绩不仅在总分上超越所有主流视频生成模型，更在关键维度上超越同级：

Temporal Consistency（时序一致性）：99.88（几乎满分）；
Motion Smoothness（运动平滑度）：99.25；
Semantic Alignment（语义一致性）：80.58（领先 EasyAnimate 的 77.01）；
Imaging Quality（影像质量）：73.03（显著高于其他模型）。

UniVid 在生成的同时，极大提升了语义契合度与画面连贯性。

与顶尖视频生成模型的比较

2. 视频理解：多项问答任务登顶

在视频问答（Video Question Answering, Video-QA）任务中，UniVid 同样登顶多个主流基准。

UniVid 在 MSVD-QA 和 ActivityNet-QA 上均创造新纪录，并在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力。

与顶尖视频生成模型的比较

Demo 展示

为了让大家更直观地理解 UniVid 的能力，研究团队还准备了视频 Demo，涵盖视频生成和视频理解两类任务。

视频生成：

，时长00:05

从左到右的 prompt 分别是：

Mouse with large teeth aggressively eating cheese.
A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
Ten fluffy kittens eat breakfast together in warm sunlight.

视频理解：

，时长00:13

应用价值与意义

1. 视频创作与生成

在影视、广告、短视频等场景中，创作者只需输入文字脚本或图像提示，UniVid 就能自动生成连贯、符合语义逻辑的视频。它能「理解」剧情后再去「创作镜头」，让内容生产更自然、更高效。

2. 视频理解与分析

UniVid 还能看懂视频。无论是体育赛事、监控画面还是教学视频，它都能识别动作、人物、事件逻辑，生成精准摘要或问答结果。让机器不仅看到画面，更「理解故事」。

3. 机器人与xx智能

在机器人导航、自动驾驶或智能体系统中，UniVid 可以理解摄像头输入并生成未来场景预测，帮助智能体进行规划与决策。它让机器人不仅「看得到」，还能「想得出下一步」。

4. 开源生态与科研价值

与闭源视频模型不同，UniVid 的代码开源，任何研究者或开发者都可自由使用、复现、二次开发。它为视频智能研究提供了一个通用底座，也让产业界能以更低成本构建自己的视频生成系统。

作者介绍

罗嘉滨是北京大学软微与微电子学院在读博士生，研究兴趣为多智能体系统、多模态生成、RAG、AI 安全。曾参与多项科研项目，长期致力于构建安全可信的 AGI。

林峻辉是北京师范大学在读本科生，AI Geek 成员，研究兴趣为图像，视频生成与处理。曾参与多项科研项目，积极探索有趣且有用的计算机视觉模型。

张泽宇是 Richard Hartley 教授和 Ian Reid 教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域，专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验，积极探索人工智能基础和应用领域的前沿进展。

唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者，入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金，连续三年入选斯坦福大学全球前 2% 顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究，在国际顶级期刊与会议发表论文 100 余篇，相关成果被引用超过 10000 次。曾获 ACM Multimedia 最佳论文提名奖，现任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 领域主席及多个人工智能会议和期刊审稿人。

更多信息参见个人主页： https://ha0tang.github.io/

....

#世界模型深入浅出

VQ家族论文整理（VQ-VAE/VQ-GAN/RQ-VAE等）

约了知乎大佬@论文推土机，整理下世界模型技术栈下VQ家族的相关论文，分享给大家！

为什么要离散化：

神经网络是函数的万能拟合器，但不是概率密度的万能拟合器，这就是连续型变量做生成建模的本质困难，而图像生成的各种方案，本质上都是“各显神通”来绕过对概率密度的直接建模（除了Flow）。但离散型变量不存在这个困难，因为离散型概率的约束是求和为1，这通过Softmax就可以实现。所以肯定要搞离散化。

离散化直接应用到像素级ar：

像素级 AR 的困境：直接在像素空间做自回归步数过大（256×256 需约 20 万步），难以落地。

“先压缩后生成”的主流与隐患：VQ-VAE/VQ-GAN/FSQ 等“图像 tokenizer”在 32×32 或 16×16 网格上生成，再解码回像素；但这是强压缩，会引入信息损失（SEED 可视化重构示例：语义对，但细节走样）。

信息论下的下界估算：以 ImageNet-64 平均熵估算，一个长度为V的词表，信息容量是log2(V), 若想在 L=32×32 或 16×16 的长度上“无损”承载图像信息，词表规模需夸张到甚至，远超现有 codebook 能力——强压缩必然有损。

然而，直接在像素空间上操作的最大问题是——序列太长，生成太慢。在多数应用场景中，图片分辨率起码要达到256以上才有实用价值（除非只是为了用于小图表情包的生成），那么就算n=256，也有3n2≈20万，也就是说为了生成一张256大小的图片，我们需要自回归解码20万步。

为此，一个很容易想到的思路是“先压缩，后生成”，即通过另外的模型压缩序列长度，然后在压缩后的空间进行生成，生成后再通过模型恢复为图像。压缩自然是靠AE（AutoEncoder），但我们想要的是套用文本生成的建模方式，所以压缩之后还要保证离散性。

所以评价一个生成方法好不好，直接看它用了什么方式防止信息损失，以及做到了什么程度的无损压缩。

VQ-VAE

vq-v：ae是非常老帮菜的技术了，其核心就是将连续特征离散化表达。三个loss

其中使用梯度直通gradient straight through解决离散化不可导的问题。这样前向用的是，梯度回传则传到上。

Plain Text
 z_st = z_e + (e_q - z_e).detach() # 前向用 e_q，反向对 z_e 传梯度#

VQ-GAN

Esser, Patrick, Robin Rombach, and Bjorn Ommer. "Taming transformers for high-resolution image synthesis." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

方法：

回顾VQ-VAE：

而VQ-GAN则是加强版：

全文三件事：

把“卷积的局部归纳偏置 + Transformer 的长程建模”拼起来做高分图像生成。先用卷积式的 VQGAN 学一个“上下文丰富的离散码本”，把图像压到较短的 h×w 索引序列；再在索引序列上用自回归 Transformer 做最大似然建模（next-index prediction）。这样既保留了 Transformer 的表达力，又避免像素级序列过长带来的二次复杂度瓶颈。
提出 VQGAN 作为更强的第一阶段表征：用感知重建损失+PatchGAN 判别器替代纯 L2，使在更高压缩率下仍有较好感知质量；这一步显著缩短 Transformer 的序列长度，是能上高分辨率的关键。
滑动注意力窗口做超大图采样：训练时裁成可承受长度的索引块；采样时沿空间滑窗自回归，前后块共享上下文，就是上面图三所谓的sliding attention window。

Loss

vq-vae的loss：

VQ-VAE 对编码器 EEE、解码器 GGG、码本 ZZZ 的联合目标：

其中重建项：逼近像素；codebook/commitment：稳定码本、避免编码器漂到码本之外，β为权重。VQGAN 仍保留的结构，但是做了三个改动：

★

把重建项换成感知重建；

并引入对抗损失（PatchGAN 判别器 D）；

再用自适应权重 λ 动态平衡两者；

Perception loss

用 VGG/LPIPS 等感知度量替代像素 L2 作为；实证表明在高压缩比下可显著提升感知质量。

GAN loss

采用 patch-based 判别器 D，最小最大目标:

整个训练是一个 min–max 博弈，整体目标:

自适应权重

λ 由解码器最后一层的梯度范数比自适应调整：

如果 LGAN 的梯度太小（GAN 学不动），λ变大，放大 GAN 项；
如果 LGAN的梯度太大（GAN 过强不稳），λ变小，抑制 GAN 项；
这样能在训练早中晚期自适应匹配两者强度，避免手调常数。

Sliding attention window

具体做法就是把整张大图在VQGAN 的潜空间网格上，分成可承受的小窗口（如 16×16 token）来做自回归预测；采样时让这个窗口在整张图上滑动，每次只让 Transformer 关注窗口内及与前一窗口的重叠上下文，从而把注意力的开销从降到近似（k为窗口边长）。

Sliding attention window = 用固定小序列训练 Transformer，用滑动的局部注意力窗口在采样时覆盖整图；它主要解决了注意力二次复杂度导致的高分辨率生成不可扩展的问题，并依赖 VQGAN 的上下文丰富表征与重叠上下文来保持全局一致性。让gpt举个例子：

RQ-VAE

预测residual早已有之。

首先回顾VQ-GAN，是一个两阶段学习：

第一阶段，学一个encoder，decoder用于离散化编码图像patch。
第二阶段，使用transformer生成latent code，可以是条件生成或者无条件生成，最后通过decoder生成高清图片。

同样的，rq-vae也是两阶段学习，第一阶段的区别在于学的不是vq而是vq的residual；第二部分，由于第一阶段任务的改变，每个patch的表达方式变成了多个code-book词表的残差和，所以对应的transformer的学习任务也发生了微调。整体上架构是和vq-gan相同的，具体的操作上发生了改变。文中也强调了，这个学习residual地intuition就是希望能使用不同codebook词表表达图片的不同信息，从框架到纹理。

总结来说，全文三件事：

Residual quantization

和原来vq-vae不同的地方是，vq-vae一个patch对应一个码本词表，这次rq-vae采用了D个码本词表对应一个patch特征。

其中：

具体来说就是第一层patch就是直接codebook里找最近code，然后patch特征减掉这个code，获得第一个residual，这个residual就是剩余的可解释信息，然后继续相同的操作，为这个residual在codebook里找第二个code，然后再减掉residual的residual，循环操作D次，获得每个patch特征的D个code表达，这样就有：要在Markdown中输出该公式，可使用LaTeX语法：

这里的操作思路和var类似，精确的说应该是var applies residual modeling which is inspired by rq-vae.

Loss

还是原来的vq-vae的loss：

当然也可以像vq-gan，加上perception和patch gan loss。

RQ-transformer

细节比较多，看下原文吧。这里说一下推理，由于前面的vq方式发生了改变，这里多了一个深度D维度，所以transformer分成两个构型，一个是空间的spatial transformer，然后还有一个depth transformer：

上图画的很清楚，ar过程有两个，一个是空间上的ar，然后每个空间位置上还有一次depth上的ar。

小小的对比

与 VQ-VAE / VQ-GAN 路线

★

VQ-VAE 首次把离散潜变量与学习先验结合，避免后验坍缩，成为离散生成的基础；但单层量化在强压缩下重建退化明显。

VQ-GAN 把对抗与感知损失引入第一阶段，提高重建与感知质量，并提出滑窗注意力以缓解长序列问题。

RQ-VAE 的位置：在不扩大码本的情况下，以多层残差量化获得更强近似能力与更短序列（更小 T），这正对 VQ-GAN 的“长度瓶颈”给出另一条通路。

与“并行/掩码式”AR（如 MaskGIT）

★

近年的意见认为顺序 AR 太慢，MaskGIT 以“随机掩码+迭代并行填充”的范式在速度与质量上取得强竞争力，弱化严格的自左到右生成。

对比：RQ-Transformer 依旧是自回归，但通过 T×D的结构与短序列维持了可接受速度；MaskGIT 走的是“并行 refinement”的另一条路。

不同层的residual预测结果

rq-vae的不同层重建效果

flex-var的对比

文章给出了不同层的预测结果，一开始我还没有特别理解残差预测为什么可以每一层都重建图片，然后问了一下gpt“图中显示使用不同depth的embedding进行重建得出的不同结果，但是网络预测的是残差，每一层的残差本身应该是没有直接重建图片能力的，而只有所有残差加起来到最后一层的结果才有重建图片的能力，为什么图中每一层残差都有重建图片的能力，只是细节越来越完善的区别？”，其实我的理解有误差，每一层的decoder输入是累积到该层的所有残差，所以其实最开始的第一层就可以重建基本轮廓了：

★

这让我想起了flexvar中的图片，如上面右图所示，说使用residual不能重建出任何东西，这样的对比其实没意义，应该使用累积和进行重建，所以使用residual 预测照样可以在每层重建出语义信息。所以flex-var文章强调的重点“连续语义：不以“上一层累计重建”作为必须条件，而是直接对齐“真值”，从统计学习角度更像一致的似然因子分解，强调相邻尺度的语义连续（作者认为更利于建模扩展的概率分布）。”其实站不住脚。var没有类似rq-vae的图是因为它根本没想到有人会用residual去decode图片。

Soft VQ-VAE

MaskGIT

方法

本文核心两个部分，一个是VQ-GAN学一个tokenizer，然后是一个bidirectional transformer，网络需要预测是被mask部分的概率，所以loss就稍作修改：

整体的采样decoding策略是：“并行预测 + 基于置信度的重掩 + 多步 refinement”策略，关于masking比例调度有一个对比，这里最后采用的是cosine scheduling。解释是“Concave function captures the intuition that image generation follows a less-to-more information flow. In the beginning, most tokens are masked so the model only needs to make a few correct predictions for which the model feel confident. Towards the end, the mask ratio sharply drops, forcing the model to make a lot more correct predictions. The effective information is increasing in this process. The concave family includes cosine, square, cubic, and exponential.”对于预测早期，不确定性大，所以不需要准确预测太多token，随预测次数增加，可以快速增加准确预测tokens的数量。下面左图是算法结构，右图是不同调度方式。只要是起点为1，终点为0的任何调度方式都可以，y轴表示的mask比例。

实验结果

实验结果上，首先推理速度蹭蹭快，毕竟是做了并行decoding的，并且推理步数也非常少：

VAR

Tian, Keyu, et al. "Visual autoregressive modeling: Scalable image generation via next-scale prediction." Advances in neural information processing systems 37 (2024): 84839-84865.

代码地址:https://github.com/FoundationVision/VAR/tree/main

与之前的ar方案的图片生成策略不同，var首次使用了next scale prediction的方式，通过预测层与层的残差方式，从粗粒度开始基于上一scale的信息预测下一个更细粒度的scale。并在指标上打败当时的DiT图片生成方案。

之前的MaskGIT相比于AR生成，采用了parallel decoding策略，通过cosine 调度方式先填补high confidence，然后再继续填补剩余部分，逐步补全全图。相当于是bert的图片生成版本。

而之前的VQ-GAN是加强版VQ-VAE，在做attention的时候，有一个sliding attention window的做法：

有一点考虑图片与文本序列的一大区别是图片在空间上有关联性，所以虽然做ar生成，但是每次都会和当前patch附近的空间区域做attention。但是VQ-GAN，或者MaskGIT方法，没有scale的概念，和语言序列的最大区别之一，就是图片的邻近空间相关性，从这个角度上讲，上面两个方法都没有很好处理图片生成的这个特点，所以文章首先列举了图片生成的痛点问题：

然后陈述自己的方案如何解决这些问题：

本文的方案是使用next scale residual prediction，虽然也是condition on之前的信息，预测下一步信息，但是ar是预测next token，var预测next scale：

这里的r是token maps，next scale的预测可以condition on之前scale的信息。这点思想，有点类似于RQ-transformer的思路，也是利用到了residual prediction的策略。

算法流程如上面所示，一个是不断计算当前scale的离散表达，然后用f减掉，计算残差，然后不断迭代。推理过程中，则是不断重建出残差，在f上加进去，最后恢复图片。

残差预测在flexVAR中被批为：“我们考察了视觉自回归建模中残差预测的必要性。我们的直觉是，在尺度自回归建模中，当前尺度的真实值可以从先前的尺度序列中可靠地估计出来，这使得残差预测（即预测当前尺度和前一个尺度之间的偏差）变得不必要。值得注意的是，预测真实值确保了相邻尺度之间的语义连贯性，使其更有利于建模尺度的概率分布。此外，这种结构可以在任何步骤输出合理的结果，打破了残差预测的刚性步骤设计，赋予自回归建模极大的灵活性。”

总而言之，就是两个好处“this non-residual modeling approach ensures continuous semantic representation between adjacent scales. Simultaneously, it avoids the rigid step design inherent in residual prediction, significantly expanding the flexibility of image generation.”一个是不再依赖刚性步长，第二个是有连续的语义表达。

首先第一点，刚性步长确实是residual预测的问题：

在 VAR 的实现里，步长（每个 scale 的 token 数）基本被结构固定：

patch_nums 预先定义了每一层的网格，例如 (1,2,3,4,6,8,10,13,16)，模型里据此计算 L、begin_ends、位置/层级嵌入与跨尺度因果 mask。这意味着每一步要产出恰当数量的 token，才能进入下一步（见 VAR 论文与官方代码）。
自回归推理也把“第层的输出”用于构造“第层的输入”（get_next_autoregressive_input 做上采样+卷积，再下采样给下一层），因此某层没完备，下一层就没条件。这是残差链式设计的直接后果（上一层给出“粗解”，下一层只学“剩余”）。

FlexVAR 的思路：让每一步都直接预测“真值”（而不是剩余），从而任何步数都能单独产出合理结果。这正是 FlexVAR 宣称的优势之一。但是redisual预测我觉得不至于一无是处。至少从语义连续性角度来讲，RQ-VAE证明residual预测也有语义连续性，相关结论在RQ-VAE中已经提到：

★

“使用residual不能重建出任何东西，这样的对比其实没意义，应该使用累积和进行重建，所以使用residual 预测照样可以在每层重建出语义信息。所以flex-var文章强调的重点“连续语义：不以“上一层累计重建”作为必须条件，而是直接对齐“真值”，从统计学习角度更像一致的似然因子分解，强调相邻尺度的语义连续（作者认为更利于建模扩展的概率分布）。”其实站不住脚。”

loss

loss采用了vq-gan的loss：

实验结果

实验结果强调两点是，一个是scaling law，通过不断增大参数量，可以看到test loss and token error rate在不断降低，其次同样的模型，增加traning compute，也存在scaling：

FlexVAR方法

问题设定：视觉AR常见三类路径——逐token（raster-scan）、掩码并行（random-scan / MaskGIT）、以及尺度自回归（scale-wise）。VAR提出“下一尺度预测”，一步并行出整张token map，但采用残差（当前尺度 − 上一尺度上采样），因此推理步设计刚性、可伸缩性有限。

FlexVAR的核心变更：把“下一尺度残差预测”改为“下一尺度GT预测”，每一步都能直接给出一幅可用图像；并提供可缩放2D位置编码与随机步采样，从而打破固定步/固定分辨率限制。

总结来说和VAR的核心区别是：每一步直接预测该尺度的 ground-truth（GT）latent token map，而不是像 VAR 那样预测“残差”。这样每一步都能独立生成一幅可用图像，并且步数、分辨率与宽高比在推理时都可以灵活切换。

对比VAR and FlexVAR

残差预测（VAR）的优点

★

优化更分解：把高频细节留给细尺度学，“粗到细”像正交分解；对大模型训练很友好，论文与代码报告了强指标。

码本效率：多尺度/残差量化提高逼近能力，类似 RQ-VAE/RQ-Transformer 的“叠残差码栈”思想，早在 RQ-VAE 路线已验证有效。

先粗后细的归纳偏置：第一层一个 token 信息少，但它确实承担全局基色/构图这种超低频信息；随后层级逐步细化，误差更小、学习更稳。

残差预测（VAR）的代价 / 局限

★

特征无法对齐：从表示学习的视角,就是像素patch级别的残差和像素patch不共享特征空间. 这就导致了高频特征无法和语义,实例,这种抽象信息对齐。

流程刚性：步数、每步 token 数基本写死；中断或少步会让下一层缺条件，输出容易退化。

接口复杂：f_rest/f_hat、跨尺度掩码、teacher-forcing 的拼接，训练/推理的结构耦合强，不太“随心所欲”。

每步可视化不一定优雅：早期粗层的可视图常较糙；要“任何步都像样”，并非设计目标。

非残差（FlexVAR）的优点

★

灵活：每一步都直接预测“真值分布”的一部分，使任意步数、分辨率、纵横比都能工作（作者展示了单模多任务/分辨率/步数的适配与迁移）。

连续语义：不以“上一层累计重建”作为必须条件，而是直接对齐“真值”，从统计学习角度更像一致的似然因子分解，强调相邻尺度的语义连续（作者认为更利于建模扩展的概率分布）。

实证：作者报告在 ImageNet 256 上，1B 参数的 FlexVAR 优于同规模 VAR，并在 13 步 zero-shot 迁移时 FID=2.08，优于 AiM/VAR 与一些扩散基线；在 512 上（zero-shot）对 2.3B VAR 也具竞争力。需注意对比条件与实现细节。

非残差（FlexVAR）的代价 / 潜在风险

★

难度可能上升：不借助“残差分解”，每步都要能“自圆其说”，需要强大的上采样/解码器与训练技巧，防止模式坍缩/漂移。

理论/经验尚在沉淀：FlexVAR 是 2025 年的新工作（arXiv），虽然有 GitHub，但生态与“各种数据域”的稳健性还待更多复现与比较。

Img generation without VQ

Li, Tianhong, et al. "Autoregressive image generation without vector quantization." Advances in Neural Information Processing Systems 37 (2024): 56424-56445.

本文的核心思路就是maskGIT+连续特征表达diffusion生成，具体来说两件事：

不用离散化/码本也能做自回归图像生成：作者提出将每个token 的条件分布p(x∣z)p(x|z)p(x∣z) 用一个扩散过程来表示，于是 token 可以是连续值而非 VQ 离散索引；训练时用“Diffusion Loss”取代传统交叉熵，从而摆脱 VQ（向量量化）的依赖。
统一 AR 与 Masked AR（MAR）：作者把“随机顺序 + 双向注意力 + 一步预测多个 token”的 MaskGIT/MAGE 类方法形式化为广义自回归（“下一组 token 预测”），并论证双向注意力也能做自回归。

方法

diffusion

原来的各种vq-vae方法下，生成next token的方式是condition on之前的信息，或者之前scale的信息，做next token预测。这里也是一样，但是第一个区别是，不在有vq了，完全latent空间的连续表达，第二个，不是直接condition on之前的信息，而是利用一个轻量级的diffusion head，先聚合之前信息，作为condition z，然后把这个z给进diffusion head，预测出next token，这里的diffusion loss定义为：

Mask预测

借鉴maskGIT的思路：

diffusion毕竟非常耗时，本文的一个加速方式就是进行next some tokens prediction：

并且采用maskGIT的思路，并不是rasterized方式，一个个按顺序预测，而是采用随机mask随机预测的方式，逐渐补全整张图片。

双向attention

这个是MAE风格的操作，自回归的本质是条件化（只用“已知”去预测“未知”），与“用因果注意力还是双向注意力”无直接冲突，说白了只是不同的实现方式。论文明确指出“自回归可以用因果或双向注意力实现”，目标只是“给定之前的 token 去预测下一个/下一组 token”。

具体操作如下：

编码已知：先用一个 bidirectional encoder 只处理 已知 token（加位置信息），已知 token 之间相互可见。
解码未知：把编码后的已知序列与若干 [MASK] token（带位置嵌入，表示哪些位置要预测）拼接，再送入 bidirectional decoder。
只在未知处计损：训练时只对未知位置计算 Diffusion Loss/重建损失；已知位置不计损。这保证网络不会窥视目标值（未知处只有[MASK]向量而非GT）。
推理时的自回归：一次生成一个或一批未知 token，把它们的预测值并入“已知集合”，再进入下一步，直至全图填满。这样的“下一（组）token 预测”就是自回归，只是体系结构用的是双向注意力也就是mask和非mask之间的因果，而非前后因果掩码而已。

Future work

下一篇整理各种神奇的非vq-vae家族的tokenizer。

....

#即网页版 Claude Code「Claude Code on the web」

刚刚，Anthropic上线了网页版Claude Code

今天凌晨，Anthropic 上线了「Claude Code on the web」（即网页版 Claude Code）功能，这种全新的方式可以让用户直接从浏览器中委派编程任务。

博客地址：https://www.anthropic.com/news/claude-code-on-the-web

目前，网页版 Claude Code 处于 Beta 阶段，作为研究预览版向 Pro 和 Max 用户开放使用。

用户可以将多个编程任务交给 Claude 执行，这些任务会在 Anthropic 托管的云端基础设施上运行，非常适合处理漏洞积压、常规修复或并行开发工作。

对于一些用户来说，网页版 Claude Code 是「迫切需要」的。

并且，允许在浏览器中直接委派编程任务，是迈向高效顺滑软件开发的关键一步。

具体来讲，网页版 Claude Code 具有以下三大亮点：

一是，并行运行编程任务。

在网页端使用 Claude Code，用户无需打开终端就能启动编码会话。连接 GitHub 仓库，描述你的需求，Claude 会负责实现。

每个会话都在独立的环境中运行，并具备实时进度追踪功能。用户还可以在 Claude 执行任务的过程中主动引导它调整方向。

借助运行在云端的 Claude Code，用户现在可以在同一个界面中跨不同仓库并行运行多个任务，通过自动创建拉取请求（PR）和清晰的变更摘要，更快速地完成交付。

二是，灵活的工作流。

网页端界面可以灵活配合用户现有的 Claude Code 工作流程。

Anthropic 表示，将任务在云端运行，尤其适用于以下情况：

了解项目的工作方式及仓库之间的映射关系；
修复漏洞和执行常规、定义明确的任务；
后端修改，Claude Code 可以通过测试驱动开发（TDD）来验证变更。

用户也可以在移动设备上使用 Claude Code。作为此次研究预览的一部分，Anthropic 在 iOS 应用中开放了 Claude Code，让开发者可以随时随地体验与 Claude 一起编程。这仍是早期预览版本，后续将根据用户的反馈尽快优化移动端体验。

三是，安全第一的云执行环境。

每个 Claude Code 任务都在一个隔离的沙盒环境中运行，并带有网络和文件系统的限制。Git 交互通过安全代理服务处理，确保 Claude 只能访问授权的代码仓库，从而在整个工作流程中保护用户的代码和凭证安全。

用户还可以添加自定义网络配置，选择 Claude Code 在沙盒中可以连接的域名。例如，用户可以允许 Claude 通过互联网下载 npm 包，以便运行测试并验证代码修改。

感兴趣的读者可以观看 Anthropic 演示视频：

....

#ReinFlow

CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

作者简介：本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang，主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的 Chao Yu 教授以及清华大学 Yu Wang 教授。

今年，流匹配无疑是机器人学习领域的大热门：作为扩散模型的一种优雅的变体，流匹配凭借简单、好用的特点，成为了机器人底层操作策略的主流手段，并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的

，LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。

想要进一步增强开源 VLA 模型的能力，除了增加数据多样性，强化学习也是一种高度有效的方法。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的研究团队提出了一个用于微调流匹配策略的在线强化学习框架 ReinFlow，该工作已被 NeurIPS 2025 接收，并开源了详细的复现教程，包括代码、训练权重、和训练结果。

论文标题：ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
论文链接：https://arxiv.org/abs/2505.22094
项目主页：https://reinflow.github.io
开源资源（代码、模型、数据、W&B 训练记录）https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特点

理论基础：基于策略梯度理论推导，将确定性流转换为离散时间马尔可夫过程，直接优化整条流匹配链；
训练高效：相比 DPPO 节省 60% 以上训练时间，支持少步甚至单步推理；
实验验证：在多个基准任务上相较预训练模型取得了显著性能提升；
复现友好：提供完整训练教程、数据集、检查点、WandB 指标，支持许多 legged locomotion 和 manipulation benchmark，以及在 SimplerEnv 中使用规模化并行仿真微调
模型。

ReinFlow 核心原理

ReinFlow 是一个针对常微分方程策略的通用策略梯度算法。想要进行策略梯度优化，首先要设法获取动作的边缘概率分布

。对于流匹配模型而言，这与推理时动作生成的机理相关。流匹配策略每一步推理时进行了如下步骤：

流匹配模型推理公式：

第一步动作
来自高斯噪声；
对速度积分得到中间动作；
最后一步动作
与环境交互。

如果使用流匹配的理论公式，我们可以计算流策略的最终动作的似然函数。但是由于流匹配动作通过积分来定义，这个方法计算相当复杂，而且存在估计噪声，并不适合于强化学习。那么有没有办法可以简单获得流匹配策略推理时候的似然函数呢？其实可以，但是要做一些小改动……

流匹配模型的推理是一个马尔科夫过程。如果我们贮存所有的中间动作，虽然难以获得最终动作的最终动作的边缘分布，但是可以用链式法则获得扩散链条的联合概率分布：

但是由于使用常微分方程进行积分，预训练流匹配模型的每步转移概率都是狄拉克函数，据此仍然无法导出数值稳定的计算公式。因此，在 ReinFlow 中，我们向流策略的确定性路径中注入少量可学习的噪声，将其转移过程改回一个随机的扩散过程：

其中，第一项是预训练得到的速度，对应随机微分方程的漂移项；第二项是端到端训练的噪声注入网络，对应微分方程的扩散项。这样，由于相邻扩散步的转移概率都是高斯分布，流匹配的联合概率便可以被严格计算出来：

好消息是，我们的研究表明利用联合概率也可以进行策略梯度优化。根据如下定理，我们可以使用多种经典的策略梯度方法对流匹配策略进行强化学习。

虽然引入噪声改变了流匹配模型的轨迹，但是我们把噪声控制到较小范围内，以减少与预训练策略的偏离，防止微调时性能大幅受损。但同时，我们也为噪声设置强度下限，以鼓励适当的探索。另外，ReinFlow 虽然引入了额外的噪声网络，但是其参数量远小于预训练的速度场，并且与之共用视觉特征：这样可以减少微调时带来的额外开销。

任务评测

ReinFlow 是一个通用的框架。原理上，ReinFlow 可以适用于所有常微分方程定义的策略，比如 Rectified Flow 和 Shortcut Models，甚至支持极少步数下，如 1,2,4 步时的推理。而且，更新公式可以适用于几乎所有强化学习梯度算法，比如 PPO。

足式运动控制

在 D4RL 足式运动控制任务中，ReinFlow 微调后的 Rectified Flow 策略取得了平均 135.36% 的净性能增长。与当前的扩散 RL 微调方法 DPPO 相比，ReinFlow 在保持类似性能的同时，可以极大减少扩散步骤，从而节省了微调所用的 82.63% 的墙钟时间。

长程操作任务

在接收稀疏奖励和高维输入的操作任务中（Franka Kitchen、Robomimic) ，ReinFlow 微调的 Shortcut Model 策略在 4 步甚至 1 步去噪的情况下，比预训练模型平均净增了 40.34% 的成功率。其性能与使用 DPPO 微调的 DDIM 策略相当，但训练时间平均节省 23.20%。

VLA + 大规模并行强化学习

除了标准基准，研究团队还成功地使用 ReinFlow 利用 ManiSkill3 框架在 SimplerEnv 环境中微调了

模型。在包含 25 种不同物品和、十余种桌面设置和上百种初始化位姿的高度随机化场景中，ReinFlow 可以大幅提高

模型的抓取成功率。

消融实验

研究团队进行了详细的消融研究，研究以下因素对训练结果的影响：

1. 数据扩展 vs RL 微调：实验显示仅靠增加数据或推理步数较快达到性能瓶颈，而 RL 微调能进一步提升性能。

2. 时间采样策略：ReinFlow 对均匀、Logit-normal 和 Beta 分布等多种时间采样方式都表现良好的性能。

3. 噪声条件和大小：同时以状态和时间为条件生成噪声，有助于产生更多样化的动作。噪声过小训练会陷入瓶颈，一定阈值后可以探索的新策略。

4. 熵正则化：可以进一步促进探索。

保姆级开源

ReinFlow 的 GitHub 项目已经全面开源，并在积极维护中。欢迎通过邮件或 GitHub 与作者交流。项目包含了：

完整代码库

支持 Rectified Flow、Shortcut Models 等多种流模型；
涵盖 OpenAI Gym（D4RL)、Franka Kitchen、Robomimic 等多个经典 RL 环境；
详细的安装指南和使用教程。

模型 Checkpoints

提供所有实验的预训练模型；
包含行为克隆和 RL 微调后的权重；
支持一键加载和评估。

WandB 指标

公开所有实验的训练曲线（损失、奖励、学习率等）；
可直接访问：https://wandb.ai/reinflow/projects；
便于社区下载基线和本方法测试结果，进行公平验证和对比。

详尽文档

完整复现实验的步骤：https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
复现论文图表的指南：https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
关键超参数说明：https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
添加自定义数据集 / 环境：https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
常见问题解答：https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未来展望

ReinFlow 将在未来公布更多结果，包括：

发布更多大型视觉语言模型微调结果；
支持用在线 RL 微调 Mean Flow；
研究如何使用该方法进行 sim2real 和真机强化学习微调。

....

#赚钱，DeepSeek果然第一

全球六大顶级AI实盘厮杀，人手1万刀开局

在 Alpha Arena 实盘对决中，DeepSeek V3.1 凭借量化基因以最少交易次数登顶收益榜，Grok-4 紧随其后，而高频“微操”的 Gemini 2.5 Pro 却亏损最多——真实市场成为大模型决策质量与风险偏好的新试金石。

如果给每个顶级大模型一万美元真金白银，让它们下场「炒股」，谁会成为AI界的巴菲特？

最近，由nof1.ai发起的全新实验——Alpha Arena，便是这样一场「诸神之战」。

这场竞赛将当今最强的大模型，全部拉到了同一个真实的交易市场中。

包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet，以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。

每个模型都获得了10000美元的初始资金，并接收完全相同的市场数据和交易指令。

比赛的提示词并不复杂，更像是一次「开卷考试」。

首先，系统会告诉AI当前的时间、账户信息、持仓情况，然后附上一大堆实时的价格、指标（如MACD/RSI）等数据。
然后，要求模型做出决策：如果持有仓位，是继续持有还是平仓；如果空仓，是买入还是继续观望。

不得不说，金融市场的变化是真的快。

做交易这件事，DeepSeek也是真的强，不愧是搞量化出身的。

10月20日早上7:30的时候还是下图左边这样的——

DeepSeek V3.1凭借着2264美元的盈利排在第一，Grok 4以2071美元位列第二 Claude Sonnet 4.5小赚649美元，Qwen3 Max小赔416美元

Gemini 2.5 Pro赔了3542美元稳居倒数第一，GPT-5赔了2419美元排名倒数第二

然后，就在一个半小时后的10:00，就已经变成下图右边那样了——

DeepSeek V3.1和Grok-4一路狂跌，Sonnet 4.5也即将把自己赚的给赔回去

Qwen3 Max和GPT-5都有上涨的趋势

Gemini 2.5 Pro发挥倒是稳定，比起刚才又赔了近800美元

顺便一提，下面是13:30时候的样子：

DeepSeek V3.1登顶

谷歌OpenAI垫底

模型持仓

11:15的时候，我们看了一下各个模型的持仓情况。

此时，DeepSeek和Grok已经结束下跌，重新上涨。

Sonnet 4.5和Qwen3 Max也都实现了盈利。

Gemini 2.5 Pro有所回升，但不多。GPT-5倒是一直比较平稳，从20号开始就没赚也没赔。

11:45时，除了GPT-5都迎来了一波上涨。

是的，Gemini 2.5 Pro终于赚钱了！（比起几分钟前）

左右滑动查看

趋势回顾

DeepSeek V3.1 Chat和Grok-4的曲线类似，应该是有着差不多的持仓。他们在最初的几小时赔了一笔之后，很快就涨了回来并一路狂飙。

Claude Sonnet 4.5前两天都很稳定，有小赚但不多。19日晚上开始迎来一个小高峰，但在20日清晨又跌了回去。

Qwen3 Max一上来赔得最多，但后来就稳定住了，即便是在19日下午，也没有什么波动。

GPT-5和Gemini 2.5 Pro的曲线在初期也是十分相似。但和DeepSeek他们正好相反，这两位在最初的时候先是大涨一波，然后便跌到在赔钱和不赔不赚之间一直波动。

19日下午，转折出现了。这时正是DeepSeek和Grok-4开始大涨的时间，而GPT-5和Gemini 2.5 Pro则开始一路下跌。

20日凌晨，GPT-5及时做出调整并稳住了趋势，而Gemini 2.5 Pro则依然狂跌不止。

值得一提的是，快到20日中午时，除了GPT-5所有模型都迎来一波上涨。

其中，DeepSeek V3.1 Chat和Grok-4很快就开始创造历史新高，Qwen3 Max凭着这个势头首次拿到了持续的收益，Gemini 2.5 Pro也开始回升。

交易历史

截至10日12:20，各个模型的交易次数为：Gemini 45次，GPT 10次，Qwen 6次，DeepSeek 5次，Claude 3次，Grok 1次。

DeepSeek的交易次数不多不少，但不愧是量化交易出身，收益稳居第一。

Grok-4的交易次数最少，只有1次，但它一直紧追DeepSeek位列第二。

而凭借高达45次交易记录，当上「微操大师」的Gemini 2.5 Pro，也是赔钱最多的那个。

不玩游戏，不搞评测，直接开盘！

多年来，AI一直由静态基准来衡量。

ImageNet、MMLU以及无数的排行榜告诉我们，哪个模型能更好地「理解」图像、逻辑或语言。

但所有这些测试都有一个共同的缺陷——它们都发生在无菌、可预测的环境中。

市场则恰恰相反。

金融市场是终极的世界建模引擎，也是唯一一个会随着AI变得更聪明而难度同步提升的基准。

它们波动、反应、惩罚、奖励。

Alpha Arena主页写着一句话：市场才是智能的终极试金石

它们是一个由信息和情感构成的生命系统。

10年前，DeepMind为人工智能研究带来了革命性的突破。

他们的核心洞见在于：「游戏」将成为引领前沿AI飞速发展的环境。

正如前文所述，Nof1相信金融市场是下一个AI时代的最佳训练环境。

毕竟，如果AI要在现实世界中运行，它就必须在那些不会为了「反向传播」而暂停的环境中运作。

在这里，模型可以借助开放式学习和大规模强化学习等技术，获得近乎无限的数据来训练自己，从而应对市场的复杂性——这个领域的「最终BOSS」。

在Alpha Arena中，没有正确的标签，只有不断变化的概率。

一个模型的成功取决于它解读波动的速度、权衡风险的精度，以及承认错误的谦逊程度。

这将交易变成了一种新型的图灵测试：

考验的不再是「机器能否思考」，而是「它能否在不确定性中生存」。

附录：模型对话节选

上下滑动查看

DeepSeek Chat V3.1