统计物理视角下的大模型训练¶
这一页是类比视角,不是严格等价定理。目标是用统计物理的语言帮助理解大模型训练中的分布、目标函数和宏观行为。
三个层次¶
统计物理中常见三个层次:
| 层次 | 对象 |
|---|---|
| 微观层次 | 微观态 \(x\) |
| 有效层次 | 配分函数、自由能 |
| 宏观层次 | 序参量、相、临界行为 |
机器学习中也可以类比:
| 统计物理 | 大模型训练 |
|---|---|
| 微观态 | 样本、token、参数配置 |
| 配分函数 | 归一化、概率分布、训练目标 |
| 自由能 | loss、regularization、有效目标 |
| 序参量 | 能力指标、对齐指标、涌现行为 |
配分函数和归一化¶
统计物理中:
\[
Z=\sum_x e^{-\beta E(x)}.
\]
机器学习中,softmax 也有归一化:
\[
p_i={e^{z_i}\over\sum_j e^{z_j}}.
\]
两者都把未归一化权重转成概率。
自由能和目标函数¶
自由能:
\[
F=E-TS.
\]
它体现能量和熵的折中。
机器学习训练目标也常包含多个项:
\[
L_{\rm total}
=
L_{\rm data}
+
\lambda L_{\rm reg}.
\]
这可以类比为拟合数据和控制复杂度之间的折中。
KL 散度的统一角色¶
分布匹配中,KL 散度衡量两个分布的偏离:
\[
D_{\rm KL}(P\Vert Q)
=
\sum_x P(x)\log{P(x)\over Q(x)}.
\]
语言模型最大似然可以看成最小化:
\[
D_{\rm KL}(P_{\rm data}\Vert P_\theta).
\]
变分推断中也常出现 KL 项。强化学习中的 KL penalty 或 PPO clip 也可看成控制新旧策略分布偏离。
序参量类比¶
物理中,序参量描述宏观相。例如磁化强度:
\[
m={1\over N}\sum_i s_i.
\]
大模型中没有完全对应的物理序参量,但可以类比地看:
- loss 曲线。
- benchmark 能力。
- 对齐指标。
- 表示空间结构。
- 涌现能力。
这些指标不是微观参数本身,而是大量参数和数据共同作用后的宏观行为。
热力学极限类比¶
统计物理中,热力学极限关注:
\[
N\rightarrow\infty.
\]
大模型中,人们也关心参数量、数据量、计算量增大后的 scaling law。
这个类比有帮助,但要注意:
- 神经网络不是平衡热力学系统。
- 训练动力学高度依赖优化器、数据和架构。
- benchmark 能力不是严格物理相。
因此更稳妥的表述是:
统计物理提供了一套理解大量自由度系统的语言,但不能把每个类比都当成严格定理。
招聘考点¶
代表题:loss、reward、能量和自由能能否放在同一视角下理解?
可以作为优化目标的类比来理解:监督学习最小化 loss,强化学习最大化 reward,零温 VMC 最小化能量,有限温变分方法常最小化自由能。共同点是都在用某个标量目标引导参数化分布变化;区别是这些目标来自不同物理或任务定义,不能简单当成严格等价。相关题目见 强化学习与后训练题。