大模型背后的秘密公式: Q*?
值得注意的是,由于语言的顺序特性,token级MDP具有独特的树形结构(tree structure),即在给定输入提示(初始状态)的情况下,模型的每个决策都会导向一个全新的状态,这与一般的MDP(例如棋类游戏)不同。DPO算法的目标就是调整模型参数,使其所对应的奖励函数符合人类偏好,同时DPO能够学习任意密集奖励函数对应的最优策略。近年来,随着深度学习的发展,深度Q网络(DQN)等算法将神经网络
这麽说好像我是James Bond后面那个厉害的Q先生,Q是英文Quartermaster(軍需官)第1個英文字大寫,是007系列英國祕勤局虛構部門Q部門的領導。
Stanford大学的研究者最近发表了一篇名为"From r to Q*: Your Language Model is Secretly a Q-Function"的论文,核心观点是将语言模型解释为最优Q函数,并以此推导出DPO算法在序列决策问题中的应用。这为DPO在序列决策任务中的应用提供了理论基础。本报告探讨了其在多轮对话、智能体建立、端到端生成式AI系统训练等方面的应用前景,并提供了使用DPO在Reddit TL;DR数据集上训练的样本生成结果。

让我们深入探讨一下其中的关键论证。首先,作者定义了语言模型中的token级MDP(Token-level Markov Decision Process),这是一种用于表示语言模型序列决策过程的数学框架。在token级MDP中,每个token都被视为一个独立的决策步骤。其组成要素包括:状态空间S、动作空间A、转移函数f、奖励函数r和初始状态分布ρ0\rho_0ρ0。由于语言的顺序特性,token级MDP具有独特的树形结构,与一般的MDP(例如棋类游戏)不同,因此许多基于MDP的理论结果在此都有独特的解释。

接着,作者指出在token级MDP中,最优策略π∗\pi^*π∗与最优Q函数Q∗Q^*Q∗之间满足一定关系,语言模型生成每个token的概率分布恰好对应以logits为Q∗Q^*Q∗的softmax函数。作者进一步证明,在token级MDP中,奖励函数r与最优Q函数Q∗Q^*Q∗之间存在一一映射关系,表明我们可以将语言模型视为隐式地表示了某个最优Q函数的奖励函数。DPO算法的目标就是调整模型参数,使其所对应的奖励函数符合人类偏好,同时DPO能够学习任意密集奖励函数对应的最优策略。

这一理论洞见具有重要意义。它揭示了语言模型的潜在强化学习特性,为DPO等对齐算法在序列决策中的应用提供了理论支持,同时也为PPO等传统强化学习算法在语言任务上的应用提供了合适的问题建模。这篇论文开创性地将Q学习与语言模型结合,极大拓展了RLHF的理论框架和算法工具箱。
作者还概述了如何使用DPO从人类反馈中端到端训练生成式AI系统。通过在混合MDP中同时优化提示生成器和图像生成器,联合训练可使系统生成更对齐的提示和图像。在Reddit TL;DR数据集上的实验表明,beam search可提高DPO模型的匹配质量但宽度过大会导致冗长,而有无监督式微调(SFT)预训练则显著影响生成摘要的可读性。
这项工作为将DPO扩展到序列决策、强化学习领域奠定了理论基础,并提出了从反馈中学习推理、多轮对话、智能体训练、端到端生成式AI训练等具启发性的潜在应用方向。通过将DPO重新诠释为最佳Q函数学习,它为偏好对齐技术的发展开辟了简洁高效的新路径。未来,大规模实证研究以及在更多任务中的探索,有望进一步推动需要多步交互及端到端优化的语言模型对齐应用。
科普什么是Q函数(可不是Altman家的Q∗Q^*Q∗):
Q函数,全称为动作-价值函数(Action-Value Function),是强化学习中的一个重要概念。它表示在给定策略π\piπ下,从状态s开始执行动作a,然后继续遵循策略π\piπ所获得的期望累积奖励。用数学公式表示为:
Qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]Q^\pi(s, a) = E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]Qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]
其中,γ\gammaγ是折扣因子,用于平衡即时奖励和长期奖励的重要性。期望EπE_\piEπ表示在给定策略π\piπ的情况下对未来奖励的平均值。
Q函数有以下几个关键性质:
-
最优Q函数Q∗(s,a)Q^*(s, a)Q∗(s,a)给出了在状态s下采取动作a,然后在之后的所有时间步遵循最优策略π∗\pi^*π∗可以获得的最大期望累积奖励。
-
基于最优Q函数,我们可以很容易地得到最优策略:π∗(a∣s)=argmaxaQ∗(s,a)\pi^*(a|s) = \arg\max_a Q^*(s, a)π∗(a∣s)=argmaxaQ∗(s,a)。即在每个状态下选择Q值最大的动作。
-
Q函数满足贝尔曼最优方程(Bellman Optimality Equation):
Q∗(s,a)=E[Rt+1+γmaxa′Q∗(St+1,a′)∣St=s,At=a]Q^*(s, a) = E[R_{t+1} + \gamma \max_{a'}Q^*(S_{t+1}, a') | S_t = s, A_t = a]Q∗(s,a)=E[Rt+1+γmaxa′Q∗(St+1,a′)∣St=s,At=a]
这个方程表示最优动作价值等于即时奖励加上下一状态的最大Q值(乘以折扣因子γ\gammaγ)的期望。
在强化学习中,我们通常利用贝尔曼方程作为更新Q函数估计值的依据,例如在Q-learning算法中:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha[R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)]Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]
其中α\alphaα是学习率。这个更新规则可以被证明在一定条件下收敛到最优Q函数。
Q函数提供了一种评估动作好坏的方法,使我们能够在不完全了解环境动态的情况下做出最优决策。很多强化学习算法如Q-learning、SARSA、DQN等都是围绕估计和优化Q函数展开的。
近年来,随着深度学习的发展,深度Q网络(DQN)等算法将神经网络用于逼近Q函数,取得了显著的成功,使得Q学习的思想得以扩展到大规模甚至连续的状态-动作空间中。
总之,作为连接策略评估和策略改进的桥梁,Q函数是现代强化学习的核心概念之一。深入理解Q函数的性质和更新方法,对于设计高效的强化学习算法至关重要。同时Q学习在机器人、自动驾驶、游戏AI等领域也有广泛应用。而将Q学习与神经语言模型相结合,更是近年来的一个令人激动的新方向,为对齐大型语言模型行为带来了新的理论视角和技术路径。
Token级MDP(Token-level Markov Decision Process)是一种用于表示语言模型中序列决策过程的数学框架。在这个MDP中,每个token(词汇表中的词)都被视为一个独立的决策步骤。让我详细解释一下它的组成要素:
-
状态空间(State Space, S):包含到目前为止生成的所有token,即st=x0,...,xm,y0,...,yts_t=\\{x_0, ..., x_m, y_0, ..., y_t\\}st=x0,...,xm,y0,...,yt,其中xix_ixi是输入序列的token,yiy_iyi是生成序列的token。
-
动作空间(Action Space, A):词汇表V中的所有token。在每个状态下,模型从词汇表中选择一个token作为动作。
-
转移函数(Transition Function, f):描述在给定状态s下采取动作a后,环境将转移到哪个新状态s’。在token级MDP中,转移函数是确定性的:f(s,a)=s∣af(s, a) = s|af(s,a)=s∣a,即新状态是原状态与新token的拼接。
-
奖励函数(Reward Function, r):定义在每个状态动作对(s,a)(s, a)(s,a)上的即时奖励值。在RLHF设定中,奖励函数从人类反馈中学习。
-
初始状态分布(Initial State Distribution, ρ0\rho_0ρ0):定义了MDP的初始状态分布,通常对应输入提示的分布。
在token级MDP中,模型的目标是最大化累积期望奖励:
maxπEτ∼π[∑R(st,at)]\max_\pi E_{\tau \sim \pi}[\sum R(s_t, a_t)]maxπEτ∼π[∑R(st,at)]
其中π\piπ是模型的策略(policy),τ\tauτ是轨迹(trajectory),R(st,at)R(s_t, a_t)R(st,at)是t时刻的奖励。求解这一目标的经典方法是强化学习,例如近端策略优化(PPO)。
值得注意的是,由于语言的顺序特性,token级MDP具有独特的树形结构(tree structure),即在给定输入提示(初始状态)的情况下,模型的每个决策都会导向一个全新的状态,这与一般的MDP(例如棋类游戏)不同。因此,许多基于MDP的理论结果(如Bellman方程)在这里都有独特的解释。
作者首先定义了语言模型中的token级MDP,其中每个时间步对应生成一个token的决策。接着,他们指出,在这个特殊的MDP中,最优策略π∗\pi^*π∗与最优Q函数Q∗Q^*Q∗之间满足如下关系:
π∗(at∣st)=exp((Q∗(st,at)−V∗(st))/β)\pi^*(a_t|s_t) = \exp((Q^*(s_t,a_t) - V^*(s_t)) / \beta)π∗(at∣st)=exp((Q∗(st,at)−V∗(st))/β)
其中V∗V^*V∗是最优价值函数,β\betaβ是温度参数。换句话说,语言模型生成每个token的概率分布,恰好对应了以logits为Q∗Q^*Q∗的softmax函数。进一步地,Bellman最优方程给出了Q∗Q^*Q∗和环境奖励r之间的递归关系:
Q∗(st,at)=r(st,at)+βlogπref(at∣st)+V∗(st+1)Q^*(s_t,a_t) = r(s_t,a_t) + \beta \log \pi_{ref}(a_t|s_t) + V^*(s_{t+1})Q∗(st,at)=r(st,at)+βlogπref(at∣st)+V∗(st+1)
作者据此证明,在token级MDP中,奖励函数r与最优Q函数Q∗Q^*Q∗之间存在一一映射关系。这意味着我们可以将语言模型视为一个隐式地表示了某个最优Q函数的奖励函数。DPO算法的目标就是调整模型参数,使其表示的Q函数所对应的奖励函数符合人类偏好。作者进一步论证了DPO能够学习任意密集奖励函数对应的最优策略。
更多推荐


所有评论(0)