推断、统计推断与信念传播¶
这几个词和机器学习关系很直接。它们都在说同一个核心问题:
已经看到一部分信息,如何判断隐藏变量、模型参数、未来结果或真实状态是什么?
先用一张表压住:
| 概念 | 一句话 |
|---|---|
| 推断 inference | 根据已知信息推出未知量。 |
| 统计推断 statistical inference | 用概率模型和数据估计参数、预测未知量,并描述不确定性。 |
| 信念 belief | 在概率模型里,对某个变量当前状态的概率判断。 |
| 信念传播 belief propagation | 在图模型上通过局部消息传递更新变量的边缘概率。 |
注意一个容易混的点:在深度学习工程里,inference 经常指“模型训练好以后做预测”;在统计机器学习里,inference 经常指“根据观测数据求后验、边缘概率或隐藏状态”。两个用法都合理,关键看语境。
推断¶
机器学习里的推断最宽泛地说就是:
给定模型和观测信息,求未知的标签、隐藏变量、参数、未来输出或动作。
例如图像分类模型看到一张图片:
这一步就是 inference。
在深度学习工程里,经常把流程分成:
训练阶段更新权重:
推断阶段固定权重:
所以“推断”在工程语境下通常等价于 forward prediction。
统计推断¶
统计推断更强调概率模型和不确定性:
从有限样本出发,推断总体、参数、隐藏变量或未来数据,并说明这个判断有多不确定。
常见问题包括:
| 类型 | 问题例子 |
|---|---|
| 参数估计 | 高斯分布的均值 \(\mu\) 和方差 \(\sigma^2\) 是多少? |
| 假设检验 | A 方法真的比 B 方法好吗? |
| 后验推断 | 看到数据后,参数最可能在哪里? |
| 预测 | 未来一个样本大概率落在哪里? |
| 不确定性估计 | 这个结论有多可靠? |
例如高斯模型:
观察到数据:
估计 \(\mu,\sigma^2\) 就是统计推断。
如果使用贝叶斯语言,核心公式是:
其中:
| 符号 | 含义 |
|---|---|
| \(\theta\) | 模型参数 |
| \(D\) | 观测数据 |
| \(p(\theta)\) | 先验 |
| \(p(D\mid\theta)\) | 似然 |
| \(p(\theta\mid D)\) | 后验 |
| \(p(D)\) | evidence / 边缘似然 |
统计推断的核心问题就是:
看到数据 \(D\) 以后,对未知量 \(\theta\) 的概率判断如何改变?
推断和统计推断的区别¶
| 概念 | 范围 | 重点 |
|---|---|---|
| 推断 inference | 更宽 | 根据已知推出未知 |
| 统计推断 statistical inference | 更具体 | 在概率模型下从样本推断参数、隐藏变量、总体或未来数据 |
一些常见语境:
| 说法 | 通常含义 |
|---|---|
| neural network inference | 训练后模型前向预测 |
| Bayesian inference | 计算或近似后验分布 |
| variational inference | 用简单分布近似复杂后验 |
| inference in graphical models | 求隐藏变量边缘概率、MAP 状态或后验 |
| LLM inference | 大模型推理服务,包括解码、KV cache、量化等工程问题 |
因此不要只看单词,要看它在什么领域里出现。
信念¶
机器学习里的 belief 不是哲学意义上的“信仰”,而是:
对某个变量当前状态的概率分布。
例如有一个隐藏变量 \(X\),表示天气:
这个分布就是对 \(X\) 的 belief。
如果看到地面是湿的,这个 belief 可能更新成:
所以:
它不是固定答案,而是会随着新观测改变。
图模型中的信念¶
在图模型里,每个节点表示一个变量,边或因子表示变量之间的依赖关系。
例如链式结构:
我们可能想知道每个变量在所有观测下的边缘分布:
这个边缘分布就可以叫节点 \(i\) 的 belief:
如果变量很多,直接从联合分布求边缘要对其他变量求和:
这个求和的状态空间通常随变量数指数增长,所以需要更高效的近似或精确算法。
信念传播¶
信念传播 belief propagation, BP 是图模型上的消息传递算法。它解决的问题是:
一个复杂系统里有很多变量和局部关系,如何通过局部消息传递得到每个变量的边缘概率?
不要和神经网络里的 backpropagation 混淆。两个都简称 BP,但含义不同:
| 缩写 | 全称 | 作用 |
|---|---|---|
| BP | backpropagation | 神经网络中反向传播梯度 |
| BP | belief propagation | 图模型中传播概率消息 |
信念传播的核心想法是:
在树图上,信念传播可以精确求边缘分布。在有环图上,反复迭代的版本叫 loopy belief propagation,通常是近似算法。
Pairwise Markov Random Field¶
考虑 pairwise Markov random field:
其中:
| 符号 | 含义 |
|---|---|
| \(\phi_i(x_i)\) | 节点 \(i\) 的局部证据或外场 |
| \(\psi_{ij}(x_i,x_j)\) | 节点 \(i,j\) 的相互作用 |
| \(\prod_i\phi_i\prod_{(i,j)}\psi_{ij}\) | 未归一化联合权重 |
这个结构和统计物理中的 Boltzmann 分布很像:
局部因子可以理解为局部能量项的指数形式。归一化常数就是概率图模型里的配分函数:
BP 的消息公式¶
节点 \(i\) 发给节点 \(j\) 的消息可以写成:
逐项解释:
| 部分 | 含义 |
|---|---|
| \(\phi_i(x_i)\) | 节点 \(i\) 自己的局部证据 |
| \(\psi_{ij}(x_i,x_j)\) | \(i\) 和 \(j\) 的相容性 |
| \(\prod_{k\in\partial i\setminus j}m_{k\to i}(x_i)\) | 除 \(j\) 以外其他邻居给 \(i\) 的消息 |
| \(\sum_{x_i}\) | 把 \(i\) 自己的状态求和掉,得到关于 \(x_j\) 的消息 |
大白话是:
节点 \(i\) 告诉节点 \(j\):根据我自己的证据,以及除了你之外其他邻居告诉我的信息,我认为你取每个值的可能性是多少。
最后节点 \(i\) 的 belief 为:
归一化以后:
这就是节点 \(i\) 的边缘概率估计。
纠错码例子¶
信念传播最经典的应用之一是纠错码,例如 LDPC code。
假设发送比特串:
信道有噪声,接收端收到:
第三位可能被翻转了。纠错码会引入一些校验约束:
于是问题变成:
在信道观测和校验约束下,每个 bit 最可能是 0 还是 1?
每个 bit 有一个 belief:
校验节点和变量节点之间反复传递消息后,可能变成:
于是接收端判断第三位更可能是 1。
这个例子说明 BP 的本质:局部约束不断互相传递,最后形成对每个变量的全局概率判断。
和平均场、Bethe 近似的关系¶
普通平均场近似假设联合分布可以完全因子化:
这等价于忽略变量之间的相关性。
BP 对应 Bethe approximation。它比普通平均场多保留了边上的两体相关:
其中 \(d_i\) 是节点 \(i\) 的度。
可以这样理解:
| 方法 | 保留的信息 |
|---|---|
| 平均场 | 每个点自己的单点分布 |
| BP / Bethe | 单点分布 + 边上的两体相关 |
| 精确解 | 所有高阶相关 |
树图上 Bethe 形式是精确的;有环图上它通常是近似。
和机器学习的关系¶
这些概念在机器学习里出现得很频繁:
| 场景 | 对应含义 |
|---|---|
| 神经网络部署 | inference = 模型预测 |
| 贝叶斯机器学习 | inference = 求后验分布 |
| 隐马尔可夫模型 | inference = 根据观测推隐藏状态 |
| 变分自编码器 VAE | variational inference = 用近似分布拟合后验 |
| 图模型 | belief = 节点边缘概率 |
| 纠错码 / 概率图模型 | belief propagation = 消息传递求边缘分布 |
| 强化学习 / POMDP | belief state = 对真实状态的概率分布 |
| 统计物理 | marginalization = 对其他自由度求和或 trace out |
比如 POMDP 中,智能体看不到真实状态 \(s_t\),只能看到观测 \(o_t\)。它维护 belief state:
这表示:
虽然不知道真实状态,但我维护一个关于真实状态的概率分布,并用它来决策。
和 VAE 的关系¶
VAE 中有隐变量 \(z\),生成模型写作:
真正想要的是后验:
但这个后验通常难以精确计算,于是引入近似分布:
这就是 variational inference。它和 belief propagation 都属于“推断算法”,只是适用模型和近似形式不同:
| 方法 | 典型场景 |
|---|---|
| belief propagation | 图模型、局部因子、离散变量常见 |
| variational inference | 复杂后验、连续隐变量、深度生成模型常见 |
| MCMC | 直接采样近似后验或边缘 |
和 NNQS / 统计物理的关系¶
NNQS 中常见的问题是从一个指数大的构型空间中处理概率权重:
这和图模型或统计物理中的联合分布有共同困难:状态空间巨大,不能直接枚举所有 \(x\)。因此需要采样、变分近似、局部能量估计或消息传递等方法。
不过要区分:
- BP 主要用于有显式图结构和局部因子的概率模型。
- NNQS 用神经网络直接参数化波函数或概率分布。
- VMC 通过从 \(p_\theta(x)\) 采样来估计能量和梯度。
它们共享同一种大问题:
不能直接处理完整联合分布时,如何有效提取边缘、期望、最可能状态或梯度信息?
最短心智模型¶
可以这样串起来:
世界有隐藏状态或未知参数
↓
我们得到有限观测数据
↓
用概率模型描述未知性
↓
对隐藏量形成 belief
↓
通过 inference 更新 belief
↓
如果模型是图结构,可以用 belief propagation 高效更新
最后压缩成一句话:
推断就是从观测推出未知;统计推断就是带概率和不确定性的推断;信念就是当前概率判断;信念传播就是在图模型中通过消息传递更新这些概率判断。