跳转至

神经网络发展与统计物理视角

神经网络的发展可以从两个角度看:

  • 工程角度:模型结构如何变得更可训练、更可扩展。
  • 物理角度:大量自由度、能量景观、相变和统计学习之间的类比。

早期神经元模型

McCulloch-Pitts 神经元把输入加权求和,再过阈值函数:

\[ y=\Theta\left(\sum_i w_i x_i-b\right). \]

它展示了一个重要思想:简单单元组合后可以实现逻辑计算。

感知机进一步引入可训练权重:

\[ y=\mathrm{sign}(w^{\mathsf T}x+b). \]

但单层感知机只能表示线性可分问题。

MLP 与反向传播

多层感知机通过隐藏层引入非线性:

\[ f_\theta(x) = W_2\sigma(W_1x+b_1)+b_2. \]

反向传播让多层网络可以用链式法则高效计算梯度:

\[ \nabla_\theta L. \]

这是现代深度学习训练的基础。

Hopfield 网络与能量函数

Hopfield 网络把神经网络和能量函数联系起来。状态 \(s_i\in\{-1,1\}\),能量可写成:

\[ E(s) = -{1\over2}\sum_{ij}w_{ij}s_is_j -\sum_i b_is_i. \]

网络更新会倾向降低能量。这和统计物理中的自旋系统非常接近。

CNN、LSTM 与 Transformer

CNN 利用局部卷积和权重共享,适合图像和格点数据。

LSTM 通过门控结构处理序列,缓解普通 RNN 的梯度消失。

Transformer 用 attention 直接建模任意位置之间的信息读取:

\[ \mathrm{Attention}(Q,K,V) = \mathrm{softmax} \left({QK^{\mathsf T}\over\sqrt{d_h}}\right)V. \]

从物理角度看,attention 可以理解为一种输入依赖的有效相互作用。

统计物理视角

神经网络训练包含大量参数:

\[ \theta\in\mathbb{R}^P. \]

loss landscape 像高维能量景观:

\[ L(\theta). \]

训练过程可以类比为在这个景观上寻找低能区域。这个类比不是严格物理等价,但有助于理解:

  • 局部极小值。
  • 鞍点。
  • 随机梯度噪声。
  • 泛化和有效自由度。
  • 大模型中的涌现行为。

和 NNQS 的连接

NNQS 更直接地把神经网络和物理连接起来:

\[ x\mapsto\psi_\theta(x). \]

这里神经网络不是普通分类器,而是 many-body 波函数的压缩表示。训练目标也不是标签误差,而是变分能量:

\[ \min_\theta E[\psi_\theta]. \]