DL、ML筆記(三):KL divergence、Cross Entropy

JianJie
Mar 18, 2021

--

Cross Entropy交叉熵

Cross Entropy 用意是在觀測預測的機率分佈與實際機率分布的誤差範圍,預測值與實際值差越多,也就是代表內涵的資訊量愈大,也就是不確定越多,Cross-Entropy 會越高。在模型為Binary的情況下,其計算公式:

其中P為理論分布,Q為實際分布,在分類問題中,P就是0 or 1,而Q是模型輸出值,為[0, 1],而一般Cross Entropy的定義為:

計算理論分布與實際分布相似度,可以視為實際之推估。而Cross Entropy可以與資訊熵相比,資訊熵可以取得理論資料散布程度,Cross Entropy則是利用理論綜合實際資訊之散布程度,而KL divergence 則是由這兩種熵推導而來。

KL divergence

KL divergence又稱相對熵(relative entropy)、資訊散度(information divergence)或資訊增益(information gain)。

KL divergence 是兩個計算機率分布P&Q相似程度。

P表示資料的真實分佈,Q表示資料的理論分佈,模型分佈,或P的近似分佈。可以視為分布Q用於近似P的訊息損失,或是用編碼的角度可以視為兩個分布訊息量的差異,差異越大KL divergence越大,因此當兩個分布相同時,KL divergence為0。

而KL divergence可以由Information Entropy及Cross Entropy推導:

因此站在編碼的角度觀看,Information Entropy為理論資料之平均編碼長度,Cross Entropy為實際編碼長度,KL divergence則是量者間的編碼差距,即為編碼可優化的空間。

但要注意一點,KL divergence為非對稱量度,D(P||Q)與D(Q||P)不相等,並不是兩個分布之間真正的距離。

在DL、ML中,較常使用到Cross Entropy,因為在監督式學習中,P的資料分布為已知的,因此KL divergence中的Information Entropy無須再次計算,而且Classification中Cross Entropy可以由推導而來,因此Cross Entropy較為常見。

--

--

JianJie
JianJie

Written by JianJie

Image Processing / Computer Vision / Deep Learning

No responses yet