统计物理视角下的大模型训练¶

这一页是类比视角，不是严格等价定理。目标是用统计物理的语言帮助理解大模型训练中的分布、目标函数和宏观行为。

三个层次¶

统计物理中常见三个层次：

层次	对象
微观层次	微观态 \(x\)
有效层次	配分函数、自由能
宏观层次	序参量、相、临界行为

机器学习中也可以类比：

统计物理	大模型训练
微观态	样本、token、参数配置
配分函数	归一化、概率分布、训练目标
自由能	loss、regularization、有效目标
序参量	能力指标、对齐指标、涌现行为

配分函数和归一化¶

统计物理中：

\[ Z=\sum_x e^{-\beta E(x)}. \]

机器学习中，softmax 也有归一化：

\[ p_i={e^{z_i}\over\sum_j e^{z_j}}. \]

两者都把未归一化权重转成概率。

自由能和目标函数¶

自由能：

\[ F=E-TS. \]

它体现能量和熵的折中。

机器学习训练目标也常包含多个项：

\[ L_{\rm total} = L_{\rm data} + \lambda L_{\rm reg}. \]

这可以类比为拟合数据和控制复杂度之间的折中。

KL 散度的统一角色¶

分布匹配中，KL 散度衡量两个分布的偏离：

\[ D_{\rm KL}(P\Vert Q) = \sum_x P(x)\log{P(x)\over Q(x)}. \]

语言模型最大似然可以看成最小化：

\[ D_{\rm KL}(P_{\rm data}\Vert P_\theta). \]

变分推断中也常出现 KL 项。强化学习中的 KL penalty 或 PPO clip 也可看成控制新旧策略分布偏离。

序参量类比¶

物理中，序参量描述宏观相。例如磁化强度：

\[ m={1\over N}\sum_i s_i. \]

大模型中没有完全对应的物理序参量，但可以类比地看：

loss 曲线。
benchmark 能力。
对齐指标。
表示空间结构。
涌现能力。

这些指标不是微观参数本身，而是大量参数和数据共同作用后的宏观行为。

热力学极限类比¶

统计物理中，热力学极限关注：

\[ N\rightarrow\infty. \]

大模型中，人们也关心参数量、数据量、计算量增大后的 scaling law。

更系统的 scaling law 推导见 Scaling Law：模型、数据与算力。那里会区分 loss 随 \(N,D,C\) 的经验幂律、固定 compute 下的 Chinchilla 式最优分配，以及为什么 scaling exponent 不能直接等同于“智能”。如果关心宽度 \(n\to\infty\) 时训练动力学本身如何缩放，见 NTK、μP 与无限宽极限。

这个类比有帮助，但要注意：

神经网络不是平衡热力学系统。
训练动力学高度依赖优化器、数据和架构。
benchmark 能力不是严格物理相。

因此更稳妥的表述是：

统计物理提供了一套理解大量自由度系统的语言，但不能把每个类比都当成严格定理。

招聘考点¶

代表题：loss、reward、能量和自由能能否放在同一视角下理解？

可以作为优化目标的类比来理解：监督学习最小化 loss，强化学习最大化 reward，零温 VMC 最小化能量，有限温变分方法常最小化自由能。共同点是都在用某个标量目标引导参数化分布变化；区别是这些目标来自不同物理或任务定义，不能简单当成严格等价。相关题目见强化学习与后训练题。