DL、ML筆記(六):Kernel Density Estimation 核密度估計

JianJie

Apr 2, 2021

對於數據可視化，有兩種方式呈現，直方圖(Histogram)或是核密度估計(Kernel Density Estimation)

Histogram直方圖

直方圖是最簡單的非參數密度估計器，可以很直接地觀看。建立直方圖時，將數據所涵蓋的所有區間劃分為相等的子間隔，稱為”bin”。

以上圖為例，可以把數據所在的整體範圍以長條圖表示，目前分割為6個bin，並可以計算bin內資料數量，以n_i表示，而該bin的機率可以表示為:

N為數據總數量，f(x)為連續密度函數，表示每一點的機率。該bin的機率也就是”該bin內數據量/所有bin數據量總和”或是表示為” 該bin內數據量/總數據量”。

用連續機率的方式計算，單一bin中的機率也可以表示為對bin區間內進行積分。而在bin極度為小的狀況下(bandwidth極小)，可以視為bin內單點機率× bandwidth。因此可以換寫為:

反推可得到單點的機率可以為”bin之機率/bandwidth”，得到最終連續密度函數。

Kernel Density Estimation 核密度估計 (KDE)

與直方圖的目的相同，我們所希望看到的是數據的”機率密度函數”，但KDE是較為平滑的方法。我們可以把數據視為多個kernel結合的結果，多個kernel可以擬合出較為平滑的分布曲線。

其估計表示法為:

其中K為核函數kernel (非負、積分為1、具有對稱性且符合機率密度之函數)，x_i為kernel中心，n為kernel的數量，h為bandwidth。因此其意義可解釋為所有kernel對單一x之貢獻之總和，但單一Kernel即為一機率密度函數，因此在總合後需要除以kernel總數，轉換回機率密度函數。

h為人為決定之參數，h會影響擬合的平滑度，當h越小，其曲線越崎嶇，h越大，曲線越平滑，其同步影響kernel。

也可以選擇不同種類kernel，可使擬合曲線用於不同狀況下。

與直方圖相比，核密度估計器的屬性為：

1.平滑

2.為連續函數

DL、ML筆記(六):Kernel Density Estimation 核密度估計

Histogram直方圖

Kernel Density Estimation 核密度估計 (KDE)

Written by JianJie

No responses yet