交叉熵

在信息论中，基于相同事件测度的两个概率分布 $p$ 和 $q$ 的交叉熵是指，当基于一个“非自然”（相对于“真实”分布 $p$ 而言）的概率分布 $q$ 进行编码时，在事件集合中唯一标识一个事件所需要的平均比特数（bit）。

给定两个概率分布 $p$ 和 $q$ ， $p$ 相对于 $q$ 的交叉熵定义为：

H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q),\!

其中 $H(p)$ 是 $p$ 的熵， $D_{\mathrm {KL} }(p\|q)$ 是从 $p$ 与 $q$ 的KL散度(也被称为p相对于q的相对熵)。

对于离散分布 $p$ 和 $q$ ，这意味着：

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

对于连续分布也是类似的。我们假设 $p$ 和 $q$ 在测度 $r$ 上是绝对连续的(通常 $r$ 是Lebesgue measure on a Borel σ-algebra)。设 $P$ 和 $Q$ 分别为 $p$ 的 $q$ 在测度 $r$ 上概率密度函数。则

-\int _{X}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q].\!

源起

在信息论中, 以直接可解编码模式通过值 $x_{i}$ 编码一个信息片段，使其能在所有可能的 $X$ 集合中唯一标识该信息片段，Kraft–McMillan theorem确保这一过程可以被看作一种 $X$ 上的隐式概率分布 $q(x_{i})=2^{-l_{i}}$ ，从而使得 $l_{i}$ 是 $x_{i}$ 的编码位长度。因此, 交叉熵可以看作每个信息片段在错误分布 $Q$ 下的期望编码位长度，而信息实际分布为 $P$ 。这就是期望 ${E}_{p}$ 是基于 $P$ 而不是 $Q$ 的原因。

H(p,q)=\operatorname {E} _{p}[l_{i}]=\operatorname {E} _{p}\left[\log {\frac {1}{q(x_{i})}}\right]

H(p,q)=\sum _{x_{i}}p(x_{i})\,\log {\frac {1}{q(x_{i})}}\!

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

估计

在大多数情况下，我们需要在不知道分布 $p$ 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 $T$ 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 $p$ 是语料中词汇的真实分布，而 $q$ 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的，我们不能直接计算交叉熵。在这种情况下，我们可以通过下式来估计交叉熵:

H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})

$N$ 是测试集大小， $q(x)$ 是在训练集上估计的事件 $x$ 发生的概率。我们假设训练集是从 $p(x)$ 的真实采样，则此方法获得的是真实交叉熵的蒙特卡洛估计。

de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. (PDF). Annals of Operations Research (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. （原始内容存档 (PDF)于2016-10-26）.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.