通过内核密度估计可以处理多少数据

时间:2014-11-10 11:51:24

标签: kernel scikit-learn handle kernel-density

我有一个4000万行(约8Mb)的数据集,而每行都是浮点型。我想使用sklearn核密度估计来拟合高斯核的数据集。但它在我的电脑上速度太慢(4GB RAM,256GB SSD)。那么,可以sklearn kde处理数百万或更多样本的数据集吗?

1 个答案:

答案 0 :(得分:1)

是的,sci-kit可以处理大量数据。 但是你发现,可能是你的机器还不够。或者,您可能需要更好地使用该软件。从sci-kit文档中阅读Strategies to scale computationally: bigger data

在Cross Validated上编辑:Density estimation for large dataset非常相关。