Attention 与 Potts 模型视角¶

这一页提供一个高级类比：把 self-attention 看成学习变量之间相互作用的机制，和 Potts 模型中的耦合结构进行对照。

这不是 Transformer 的基础理解路径。基础公式见 Attention 机制。

Potts 模型¶

Potts 模型中，每个位置 \(i\) 有一个离散状态：

\[ s_i\in\{1,\ldots,q\}. \]

能量可以写成：

\[ E(s) = -\sum_{i<j}J_{ij}(s_i,s_j) -\sum_i h_i(s_i). \]

其中：

概率分布为：

\[ P(s) = {1\over Z} \exp[-\beta E(s)]. \]

Transformer 中，每个 token 位置有 hidden vector：

\[ x_i\in\mathbb{R}^{d_{\rm model}}. \]

attention score 为：

\[ S_{ij} = {q_i\cdot k_j\over\sqrt{d_h}}. \]

softmax 后得到权重：

\[ A_{ij} = {\exp(S_{ij})\over\sum_m\exp(S_{im})}. \]

输出：

\[ \tilde x_i = \sum_j A_{ij}v_j. \]

关键相似点是：两者都用成对关系刻画变量之间的依赖。

这个类比不能过度解释。

Potts 模型的 \(J_{ij}\) 通常是显式参数或物理耦合。
Transformer 的 \(S_{ij}\) 是由输入动态生成的：

\[ S_{ij} = {(x_iW^Q)(x_jW^K)^{\mathsf T}\over\sqrt{d_h}}. \]

因此 attention 不是固定耦合，而是 data-dependent interaction。

在物理问题中，我们关心构型变量之间的关联。attention 可以看成一种可学习、输入依赖的关联读取机制。

对 NNQS 来说，这意味着 Transformer 有能力表示：

更深入的工作会讨论 factored self-attention、样本复杂性和 replica 分析。这些内容依赖更重的统计物理工具，不作为本站基础路线的一部分。

本站采用的用法更实际：

把 attention 视为一种学习构型中条件依赖和有效相互作用的模块。