跳转至

强化学习与后训练题

强化学习题在通用 AI 岗里通常不会考完整理论,而是考你是否理解“训练信号来自环境反馈或偏好反馈”。大模型后训练里,SFT、reward model、PPO、DPO 也经常一起被问。

题目:策略、价值函数和奖励分别是什么?

来源背景:RL 基础面试题改写。

考点定位:MDP、policy、value、reward。

先给结论

  • 策略 \(\pi(a\mid s)\):在状态 \(s\) 下选择动作 \(a\) 的概率。
  • 奖励 \(r\):环境给出的即时反馈。
  • 价值函数 \(V^\pi(s)\):从状态 \(s\) 出发按策略 \(\pi\) 行动的长期期望回报。

解题思路

折扣回报:

\[ G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k}. \]

状态价值:

\[ V^\pi(s)=\mathbb E_\pi[G_t\mid s_t=s]. \]

动作价值:

\[ Q^\pi(s,a)=\mathbb E_\pi[G_t\mid s_t=s,a_t=a]. \]

易错点

  • reward 是即时反馈,return 是长期累计。
  • value 不是环境直接给的,而是估计出来的。

关联阅读策略、价值函数与环境交互

题目:为什么 reward shaping 可能有风险?

来源背景:游戏 AI / 强化学习面试题改写。

考点定位:奖励设计、目标错位。

先给结论:reward shaping 能加速学习,但如果奖励设计不当,智能体可能优化代理目标而不是最终目标。

解题思路

例如小车上山任务,如果只奖励“速度大”,智能体可能学会来回摆动但不上山。如果只惩罚时间,可能导致策略过于激进。

好的 reward shaping 应该:

  • 与最终目标方向一致。
  • 不鼓励钻空子。
  • 尺度适中。
  • 能在 sparse reward 下提供学习信号。

易错点

  • reward 高不代表行为符合人类意图。
  • 稀疏奖励难学,密集奖励容易错设目标。

关联阅读奖励函数设计

题目:策略梯度为什么可以优化不可导环境?

来源背景:RL 目标函数面试题改写。

考点定位:log-derivative trick、采样估计。

先给结论:策略梯度不需要环境对动作可导,它对策略概率求导,通过采样轨迹的回报来估计梯度。

解题思路

目标:

\[ J(\theta)=\mathbb E_{\tau\sim p_\theta(\tau)}[R(\tau)]. \]

梯度:

\[ \nabla_\theta J = \mathbb E \left[ R(\tau)\nabla_\theta\log p_\theta(\tau) \right]. \]

若环境转移不依赖 \(\theta\),则:

\[ \nabla_\theta\log p_\theta(\tau) = \sum_t\nabla_\theta\log\pi_\theta(a_t\mid s_t). \]

易错点

  • 不需要对环境求导,但需要对策略网络求导。
  • 方差通常很大,所以要 baseline 或 advantage。

关联阅读目标函数、折扣回报与策略梯度

题目:PPO 中 \(r_t(\theta)\) 是什么?

来源背景:RLHF / PPO 面试题改写。

考点定位:重要性采样、策略更新约束。

先给结论

\[ r_t(\theta) = {\pi_\theta(a_t\mid s_t)\over\pi_{\theta_{\rm old}}(a_t\mid s_t)}. \]

它表示新策略相对旧策略对同一动作的概率变化。

解题思路

\(A_t>0\),动作比预期好,希望 \(r_t\) 增大。若 \(A_t<0\),动作比预期差,希望 \(r_t\) 减小。

PPO 使用 clip:

\[ \mathrm{clip}(r_t,1-\epsilon,1+\epsilon) \]

限制策略一步变化过大。

易错点

  • PPO 不是简单“奖励越大越更新”,它还限制新旧策略距离。
  • \(r_t\) 是概率比,不是 reward 比。

关联阅读PPO 的基本动机

题目:RLHF 为什么需要 KL 约束?

来源背景:大模型后训练题改写。

考点定位:策略漂移、参考模型、分布约束。

先给结论:KL 约束防止模型为了追求 reward 过度偏离原始语言模型,降低语言质量崩坏和 reward hacking 风险。

解题思路

后训练目标常包含:

\[ \mathbb E[R(x,y)] - \beta D_{\rm KL} \left( \pi_\theta(\cdot\mid x) \Vert \pi_{\rm ref}(\cdot\mid x) \right). \]

第一项鼓励高 reward,第二项限制模型不要离参考模型太远。

易错点

  • reward model 本身可能被利用。
  • KL 系数太大,模型学不动;太小,模型容易漂移。

关联阅读统计物理视角下的大模型训练

题目:SFT 和 RLHF 的训练信号有什么不同?

来源背景:LLM 后训练基础题改写。

考点定位:监督学习、偏好优化、强化学习。

先给结论:SFT 的训练信号是“标准答案 token”;RLHF 的训练信号是“回答好坏的偏好或 reward”。

解题思路

SFT loss:

\[ L_{\rm SFT} = -\sum_i\log\pi_\theta(y_i\mid x,y_{<i}). \]

RLHF 优化:

\[ \max_\theta \mathbb E_{y\sim\pi_\theta} [R(x,y)] - \beta D_{\rm KL}(\pi_\theta\Vert\pi_{\rm ref}). \]

易错点

  • SFT 是 teacher forcing,训练时看到标准前缀。
  • RLHF 的样本来自当前策略或旧策略采样。

关联阅读概述

题目:VMC 和强化学习有什么相似点?

来源背景:NNQS 与 RL 交叉理解题改写。

考点定位:自采样、目标信号、分布依赖参数。

先给结论:二者都不是简单固定数据集监督学习。样本分布依赖当前参数,训练信号来自环境或物理目标。

解题思路

RL:

policy_theta
  -> sample trajectory
  -> reward
  -> update theta

VMC:

psi_theta
  -> sample configurations from |psi_theta|^2
  -> local energy
  -> update theta

零温 VMC 最小化能量,RL 通常最大化 reward。

易错点

  • VMC 的目标来自 Hamiltonian,不是人工 reward。
  • 两者梯度估计形式有相似直觉,但物理含义不同。

关联阅读VMC 的闭环训练视角

题目:DPO 和 PPO 式 RLHF 的区别是什么?

来源背景:大模型后训练面试题改写。

考点定位:偏好优化、reward model、在线 / 离线训练。

先给结论:PPO 式 RLHF 通常显式训练 reward model,并用策略梯度优化模型;DPO 直接用偏好数据构造分类式目标,绕开显式 reward model 和在线 RL 采样流程。

解题思路

偏好数据通常形如:

prompt x
chosen response y_w
rejected response y_l

DPO 的直觉是:提高 chosen 相对 rejected 的概率,同时用 reference model 控制偏离程度。它把偏好优化写成一个稳定的监督学习式目标。

PPO 式 RLHF 流程更像:

policy 生成回答
  -> reward model 打分
  -> PPO 更新 policy
  -> KL 限制偏离 reference

DPO 流程更像:

固定偏好数据
  -> 比较 chosen / rejected 的 log probability
  -> 直接优化策略

易错点

  • DPO 不是普通 SFT,它使用成对偏好。
  • PPO 不是只最大化 reward,还需要 KL 或 clip 限制。
  • DPO 更简单稳定,但效果仍依赖偏好数据质量和 reference model。

关联阅读强化学习与后训练题