DL、ML筆記(六):Kernel Density Estimation 核密度估計

JianJie
Apr 2, 2021

--

對於數據可視化,有兩種方式呈現,直方圖(Histogram)或是核密度估計(Kernel Density Estimation)

Histogram直方圖

直方圖是最簡單的非參數密度估計器,可以很直接地觀看。建立直方圖時,將數據所涵蓋的所有區間劃分為相等的子間隔,稱為”bin”。

以上圖為例,可以把數據所在的整體範圍以長條圖表示,目前分割為6個bin,並可以計算bin內資料數量,以n_i表示,而該bin的機率可以表示為:

N為數據總數量,f(x)為連續密度函數,表示每一點的機率。該bin的機率也就是”該bin內數據量/所有bin數據量總和”或是表示為” 該bin內數據量/總數據量”。

用連續機率的方式計算,單一bin中的機率也可以表示為對bin區間內進行積分。而在bin極度為小的狀況下(bandwidth極小),可以視為bin內單點機率× bandwidth。因此可以換寫為:

反推可得到單點的機率可以為”bin之機率/bandwidth”,得到最終連續密度函數。

Kernel Density Estimation 核密度估計 (KDE)

與直方圖的目的相同,我們所希望看到的是數據的”機率密度函數”,但KDE是較為平滑的方法。我們可以把數據視為多個kernel結合的結果,多個kernel可以擬合出較為平滑的分布曲線。

其估計表示法為:

其中K為核函數kernel (非負、積分為1、具有對稱性且符合機率密度之函數),x_i為kernel中心,n為kernel的數量,h為bandwidth。因此其意義可解釋為所有kernel對單一x之貢獻之總和,但單一Kernel即為一機率密度函數,因此在總合後需要除以kernel總數,轉換回機率密度函數。

h為人為決定之參數,h會影響擬合的平滑度,當h越小,其曲線越崎嶇,h越大,曲線越平滑,其同步影響kernel。

也可以選擇不同種類kernel,可使擬合曲線用於不同狀況下。

與直方圖相比,核密度估計器的屬性為:

1.平滑

2.為連續函數

--

--

JianJie
JianJie

Written by JianJie

Image Processing / Computer Vision / Deep Learning

No responses yet