跳转至

Attention 与 Potts 模型视角

这一页提供一个高级类比:把 self-attention 看成学习变量之间相互作用的机制,和 Potts 模型中的耦合结构进行对照。

这不是 Transformer 的基础理解路径。基础公式见 Attention 机制

Potts 模型

Potts 模型中,每个位置 \(i\) 有一个离散状态:

\[ s_i\in\{1,\ldots,q\}. \]

能量可以写成:

\[ E(s) = -\sum_{i<j}J_{ij}(s_i,s_j) -\sum_i h_i(s_i). \]

其中:

  • \(J_{ij}\):位置 \(i,j\) 之间的相互作用。
  • \(h_i\):单点偏置。

概率分布为:

\[ P(s) = {1\over Z} \exp[-\beta E(s)]. \]

Self-attention

Transformer 中,每个 token 位置有 hidden vector:

\[ x_i\in\mathbb{R}^{d_{\rm model}}. \]

attention score 为:

\[ S_{ij} = {q_i\cdot k_j\over\sqrt{d_h}}. \]

softmax 后得到权重:

\[ A_{ij} = {\exp(S_{ij})\over\sum_m\exp(S_{im})}. \]

输出:

\[ \tilde x_i = \sum_j A_{ij}v_j. \]

类比关系

Potts 模型 Self-attention
离散状态 \(s_i\) token / hidden state \(x_i\)
耦合 \(J_{ij}\) attention score \(S_{ij}\)
Boltzmann 权重 softmax 权重
相互作用决定统计关联 attention 决定信息读取

关键相似点是:两者都用成对关系刻画变量之间的依赖。

重要差别

这个类比不能过度解释。

Potts 模型的 \(J_{ij}\) 通常是显式参数或物理耦合。
Transformer 的 \(S_{ij}\) 是由输入动态生成的:

\[ S_{ij} = {(x_iW^Q)(x_jW^K)^{\mathsf T}\over\sqrt{d_h}}. \]

因此 attention 不是固定耦合,而是 data-dependent interaction。

为什么这个视角有用

在物理问题中,我们关心构型变量之间的关联。attention 可以看成一种可学习、输入依赖的关联读取机制。

对 NNQS 来说,这意味着 Transformer 有能力表示:

  • 局域关联。
  • 长程关联。
  • 由当前构型决定的有效相互作用。
  • 不同 head 对应的多种关联通道。

不展开的部分

更深入的工作会讨论 factored self-attention、样本复杂性和 replica 分析。这些内容依赖更重的统计物理工具,不作为本站基础路线的一部分。

本站采用的用法更实际:

把 attention 视为一种学习构型中条件依赖和有效相互作用的模块。