为什么scikit会学习返回日志密度?

时间:2014-08-14 03:36:56

标签: scikit-learn kernel-density

sklearn.neighbors.kde.KernelDensity 中的 score_samples 函数会返回密度日志。这有什么好处,而不是自己恢复密度?

我知道对数对于0到1之间的概率是有意义的(参见此问题:Why use log-probability estimates in GaussianNB [scikit-learn]?)但是为什么你对0和无穷大之间的密度做同样的事情呢?

有没有办法直接估算对数密度,还是仅从估算密度中取对数?

1 个答案:

答案 0 :(得分:1)

适用于概率的大部分内容也适用于密度,因此Why use log-probability estimates in GaussianNB [scikit-learn]?中的答案适用:

只要密度无处不在,对数就很明确。它具有更好的数值分辨率和稳定性,因为密度趋向于0.想象一个具有一定宽度的高斯核来模拟你的点并将它们想象在一个簇中的某个地方。当您离开这个密集区域时,对数密度等于到群集的负平方距离。指数将迅速产生非常小的数量,你可能不再信任它。