跳转至

统计物理视角下的大模型训练

这一页是类比视角,不是严格等价定理。目标是用统计物理的语言帮助理解大模型训练中的分布、目标函数和宏观行为。

三个层次

统计物理中常见三个层次:

层次 对象
微观层次 微观态 \(x\)
有效层次 配分函数、自由能
宏观层次 序参量、相、临界行为

机器学习中也可以类比:

统计物理 大模型训练
微观态 样本、token、参数配置
配分函数 归一化、概率分布、训练目标
自由能 loss、regularization、有效目标
序参量 能力指标、对齐指标、涌现行为

配分函数和归一化

统计物理中:

\[ Z=\sum_x e^{-\beta E(x)}. \]

机器学习中,softmax 也有归一化:

\[ p_i={e^{z_i}\over\sum_j e^{z_j}}. \]

两者都把未归一化权重转成概率。

自由能和目标函数

自由能:

\[ F=E-TS. \]

它体现能量和熵的折中。

机器学习训练目标也常包含多个项:

\[ L_{\rm total} = L_{\rm data} + \lambda L_{\rm reg}. \]

这可以类比为拟合数据和控制复杂度之间的折中。

KL 散度的统一角色

分布匹配中,KL 散度衡量两个分布的偏离:

\[ D_{\rm KL}(P\Vert Q) = \sum_x P(x)\log{P(x)\over Q(x)}. \]

语言模型最大似然可以看成最小化:

\[ D_{\rm KL}(P_{\rm data}\Vert P_\theta). \]

变分推断中也常出现 KL 项。强化学习中的 KL penalty 或 PPO clip 也可看成控制新旧策略分布偏离。

序参量类比

物理中,序参量描述宏观相。例如磁化强度:

\[ m={1\over N}\sum_i s_i. \]

大模型中没有完全对应的物理序参量,但可以类比地看:

  • loss 曲线。
  • benchmark 能力。
  • 对齐指标。
  • 表示空间结构。
  • 涌现能力。

这些指标不是微观参数本身,而是大量参数和数据共同作用后的宏观行为。

热力学极限类比

统计物理中,热力学极限关注:

\[ N\rightarrow\infty. \]

大模型中,人们也关心参数量、数据量、计算量增大后的 scaling law。

这个类比有帮助,但要注意:

  • 神经网络不是平衡热力学系统。
  • 训练动力学高度依赖优化器、数据和架构。
  • benchmark 能力不是严格物理相。

因此更稳妥的表述是:

统计物理提供了一套理解大量自由度系统的语言,但不能把每个类比都当成严格定理。

招聘考点

代表题:loss、reward、能量和自由能能否放在同一视角下理解?

可以作为优化目标的类比来理解:监督学习最小化 loss,强化学习最大化 reward,零温 VMC 最小化能量,有限温变分方法常最小化自由能。共同点是都在用某个标量目标引导参数化分布变化;区别是这些目标来自不同物理或任务定义,不能简单当成严格等价。相关题目见 强化学习与后训练题