如何在pyspark中构建直方图

时间:2017-09-13 09:31:06

标签: python pyspark

我有一个大的pyspark数据帧,并且想要一个列的直方图。

我能做到:

df.select.("col").rdd.flatMap(lambda x: x).histogram(100)

但这很慢,似乎将数据帧转换为rdd,我甚至不确定为什么我需要flatMap。

实现这一目标的最佳/最快方式是什么?

1 个答案:

答案 0 :(得分:0)

将您的数据框转换为pandas数据框

df_pd = df.toPandas()

然后使用,

%matplotlib inline
import matplotlib.pyplot as plt
df_pd.hist(column='column name')

这应该有效