相对熵
KL散度(Kullback-Leibler divergence,簡稱KLD)[1],在訊息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为訊息增益(information gain)。也称訊息散度(information divergence)。
KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。[2]
定義
對於离散隨機变量,其概率分布P 和 Q的KL散度可按下式定義為
等价于
即按概率P求得的P和Q的對數商的平均值。KL散度僅當概率P和Q各自總和均為1,且對於任何i皆滿足及時,才有定義。式中出現的情況,其值按0處理。
對於連續隨機變量,其概率分佈P和Q可按積分方式定義為 [3]
其中p和q分別表示分佈P和Q的密度。
更一般的,若P和Q為集合X的概率測度,且P關於Q絕對連續,則從P到Q的KL散度定義為
其中,假定右側的表達形式存在,則為Q關於P的R–N導數。
相應的,若P關於Q絕對連續,則
即為P關於Q的相對熵。
特性
相對熵的值為非負數:
由吉布斯不等式可知,當且僅當時為零。
尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距離。因為KL散度不具有对称性:从分布P到Q的距离通常并不等于从Q到P的距离。
參考文獻
- Kullback, S.; Leibler, R.A. . Annals of Mathematical Statistics. 1951, 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694.
- Kullback, S.; Leibler, R.A. . Annals of Mathematical Statistics. 1951, 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694.
- C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.