Spark中的核密度估计

时间:2016-10-29 15:33:08

标签: python apache-spark scikit-learn pyspark kernel-density

我最近熟悉了PySpark的内部KernelDensity功能以及sklearn的KernelDensity功能。我正在尝试将核密度估计器拟合到我的数据(大约14,000个数据点,大约1.3 MB),以便我可以从估计的分布中绘制更多样本,并生成大量具有与原始数据相似的统计特性的合成数据(希望大约2-20 GB)。我知道我可以do this in sklearn,但Spark的类似物似乎没有提供类似的方法从结果分布中提取样本。有没有办法让我在Spark的KDE中构建这个功能?我还可以使用其他工具吗?或者我必须从头开始写这个?如果是这样,请概述如何做到这一点。

我知道这似乎要合成很多数据,但我的研究与构建概念验证有关,可以针对特定问题域应用大数据的机器学习,我们无法证明这一点使用只有1.3 MB的Spark集群。

感谢您的帮助!

0 个答案:

没有答案