我有一个4000万行(约8Mb)的数据集,而每行都是浮点型。我想使用sklearn核密度估计来拟合高斯核的数据集。但它在我的电脑上速度太慢(4GB RAM,256GB SSD)。那么,可以sklearn kde处理数百万或更多样本的数据集吗?
答案 0 :(得分:1)
是的,sci-kit可以处理大量数据。 但是你发现,可能是你的机器还不够。或者,您可能需要更好地使用该软件。从sci-kit文档中阅读Strategies to scale computationally: bigger data。
在Cross Validated上编辑:Density estimation for large dataset非常相关。