绘制非常大的pyspark列的直方图

时间:2018-12-17 11:01:08

标签: pyspark

相关问题:Pyspark: show histogram of a data frame column

我的专栏很长,无法按照上述主题的建议将其转换为熊猫(火花耗尽内存)。

如何绘制此列的直方图?

1 个答案:

答案 0 :(得分:0)

您应该能够从数据的随机采样子集中获得代表性直方图。也许从1%开始,如下所示:

dfs = df.sample(withReplacement=False, fraction=0.01, seed=None).toPandas()

然后查看内存是否允许dfs.hist()

对大型列和数据帧进行下采样在数据科学的许多应用中是完全合法的(尽管在寻找罕见事件时可能会很麻烦)。重复该过程多次(使用seed=None)并比较结果以使您放心。