大模型日报|今日必读的7篇大模型论文
大模型日报|今日必读的7篇大模型论文

大家好,今日必读的大模型论文来啦!
1.苹果新研究:我们离智能视觉演绎推理还有多远?
最近,GPT-4V 等视觉语言模型(VLMs)在各种视觉语言任务中取得了令人难以置信的进步。Apple 团队深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域,并发现了当前 SOTA VLMs 中尚未暴露的盲点。
研究团队利用瑞文渐进矩阵(RPMs)来评估 VLMs 仅依靠视觉线索进行多跳关系和演绎推理的能力。他们在三个不同的数据集(包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN)上对几种流行的 VLMs 进行了全面评估,这些 VLMs 采用了标准策略,如上下文学习、自我一致性和思维链(CoT)。
结果表明,尽管 LLMs 在文本推理方面的能力令人印象深刻,但在视觉演绎推理方面仍远未达到可比的熟练程度。某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外,详细的分析显示,VLMs 在解决这些任务时之所以举步维艰,主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。
论文链接:
https://arxiv.org/abs/2403.04732
2.7B语言模型,已具备强大的数学能力
此前人们认为,普通语言模型只有在规模非常大或需要大量数学相关预训练的情况下才会展现出数学能力。
来自微软亚洲研究院、西安交通大学、中国科学技术大学和清华大学的研究团队发现,采用普通预训练的 LLaMA-2 7B 模型已经表现出很强的数学能力,从 256 个随机生成答案中选择最佳响应时,该模型在 GSM8K 和 MATH 基准测试中的准确率分别达到了 97.7% 和 72.0%,这令人印象深刻。当前基础模型的主要问题是难以持续激发其固有的数学能力。值得注意的是,在 GSM8K 和 MATH 基准上,第一个答案的准确率分别降至 49.5% 和 7.9%。
研究团队发现,只需扩大 SFT 数据的规模,就能显著提高生成正确答案的可靠性。然而,由于公开数学问题的稀缺性,广泛扩展的潜力受到了限制。为此,研究团队采用了合成数据,事实证明合成数据几乎与真实数据一样有效,并且在扩展到约一百万个样本时也没有出现明显的饱和。
这种直接的方法在 LLaMA-2 7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率,比以前的模型分别高出 14.2% 和 20.8%。该项研究还深入分析了不同推理复杂度和错误类型的扩展行为。
论文链接:
https://arxiv.org/abs/2403.04706
项目地址:
https://github.com/Xwin-LM/Xwin-LM
3.Pix2Gif:图像到GIF生成的运动引导扩散模型
来自微软的研究团队提出了一个用于生成图像到 GIF 的运动引导扩散模型——Pix2Gif。他们将任务表述为由文本和运动幅度提示引导的图像翻译问题。为确保模型遵循运动引导,研究团队提出了一个新的运动引导扭曲模块,以两种提示为条件对源图像的特征进行空间转换。此外,他们还提出了感知损失来确保转换后的特征图与目标图像保持在同一空间内,从而确保内容的一致性和连贯性。
在模型训练准备阶段,研究团队从 TGIF 视频字幕数据集中提取了连贯的图像帧并精心整理了数据,这些数据提供了有关研究对象时间变化的丰富信息。经过预训练后,模型以零样本的方式被应用于多个视频数据集。实验证明了该模型的有效性,它不仅能捕捉文本中的语义提示,还能捕捉运动引导中的空间提示。所有模型使用 16xV100 GPU 的单节点训练。
论文链接:
https://arxiv.org/abs/2403.04634
项目地址:
https://hiteshk03.github.io/Pix2Gif/
4.华为提出PixArt-Σ:能够生成4K分辨率图像的扩散Transformer模型
来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究团队提出了一个能够直接生成 4K 分辨率图像的Diffusion Transformer模型(DiT)——PixArt-Σ,它与其前身 PixArt-α 相比有了长足的进步,图像的保真度明显提高,并能更好地与文本提示保持一致。
PixArt-Σ 的一个主要特点是其训练效率。利用 PixArt-α 的基础预训练,它通过纳入更高质量的数据,从“弱”基线发展到“强”模型,我们称之为“弱到强训练”过程。PixArt-Σ 的进步体现在两个方面:一是高质量的训练数据:PixArt-Σ 融合了更高质量的图像数据,以及更精确、更详细的图像说明。二是高效 token 压缩,研究团队在 DiT 框架内提出了一种新的注意力模块,可同时压缩键(keys)和值,从而显著提高效率并促进超高分辨率图像的生成。
得益于这些改进,PixArt-Σ 实现了卓越的图像质量和用户提示功能,同时模型大小(0.6B 参数)明显小于现有的文本到图像扩散模型,如 SDXL(2.6B 参数)和 SD Cascade(5.1B 参数)。此外,PixArt-Σ 能够生成 4K 图像,支持制作高分辨率海报和壁纸,有效地促进了电影和游戏等行业高质量视觉内容的生产。
论文链接:
https://arxiv.org/abs/2403.04692
项目地址:
https://pixart-alpha.github.io/PixArt-sigma-project/
5.Meta、StabilityAI 新研究:用强化学习增强大模型推理
从人类反馈中强化学习(RLHF)已成为使大型语言模型(LLM)输出与人类偏好对齐的主要方法。受 RLHF 成功的启发,来自Meta、佐治亚理工学院、StabilityAI 和加州大学伯克利分校的研究团队探索了多种从反馈中学习的算法,如 Expert Iteration、Proximal Policy Optimization(PPO)、Return-Conditioned RL 等在提高 LLM 推理能力方面的表现。
他们研究了启发式和通过学习奖励模型为 LLM 提供的稀疏和密集奖励。从多种模型大小和初始化开始,包括有监督微调(SFT)数据和无监督微调数据,研究团队发现所有算法的表现都相当不错,而 Expert Iteration 在大多数情况下表现最佳。令人惊讶的是,Expert Iteration 的样本复杂度与 PPO 相似,从一个预训练的检查点收敛最多需要一百万个样本。研究发现:在 RL 训练过程中,模型无法在 SFT 模型已经产生的解决方案之外进行更多探索。
此外,研究团队还讨论了在 SFT 训练期间,maj@1 和 pass@96 指标性能之间的权衡,以及 RL 训练如何同时提高这两个指标的性能。该项研究最后讨论了这一发现对 RLHF 的影响以及 RL 未来在 LLM 微调中的作用。
论文链接:
https://arxiv.org/abs/2403.04642
6.Chatbot Arena:基于人类偏好评估大模型的开放平台
大型语言模型(LLMs)为我们带来了新的功能和应用,然而评估 LLMs 与人类偏好的对齐仍然是一项重大挑战。为此,来自加州大学伯克利分校、斯坦福和加州大学圣地亚哥分校的研究团队推出了基于人类偏好评估 LLMs 的开放平台 Chatbot Arena。
Chatbot Arena采用成对比较法,并通过众包利用来自不同用户群的输入。该平台已运行数月,积累了超过 24 万张选票。该项研究介绍了该平台,分析了迄今为止收集到的数据,并解释了研究团队为高效、准确地评估模型并对其进行排序而使用的经过验证的统计方法。
众包问题具有足够的多样性和辨别力,其人工投票与专家评分者的投票非常一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena 已成为最有参考价值的 LLM 排行榜之一,被领先的 LLM 开发人员和公司广泛引用。
论文链接:
https://arxiv.org/abs/2403.04132
项目地址:
https://chat.lmsys.org/
7.StableDrag:为基于点的图像编辑提供稳定的拖动功能
自 DragGAN 出现以来,基于点的图像编辑技术一直备受关注。最近,DragDiffusion 通过将这种拖动技术与扩散模型相适应,进一步提高了生成质量。尽管取得了巨大成功,但这种拖动方案仍存在两大缺陷,即点跟踪不准确和运动监控不完整,这可能导致拖动效果不尽如人意。
为此,来自南京大学和腾讯的研究团队建立了一个稳定而精确的基于拖动的编辑框架——StableDrag,它包含一个确定性点跟踪方法和一种基于置信度的运动监督潜在增强策略,前者允许我们精确定位更新的控制点,从而提高长距离操作的稳定性,而后者负责保证在所有操作步骤中优化后的潜在变量尽可能高质量。
得益于这些独特的设计,研究团队通过在 DragBench 上进行广泛的实验和评估,实例化了两种图像编辑模型 StableDrag-GAN 和 StableDrag-Diff,实现了更稳定的拖动性能。
论文链接:
https://arxiv.org/abs/2403.04437
项目地址:
https://stabledrag.github.io/
更多推荐


所有评论(0)