Question

我有一个大的pyspark数据帧，并且想要一个列的直方图。

我能做到：

df.select.("col").rdd.flatMap(lambda x: x).histogram(100)

但这很慢，似乎将数据帧转换为rdd，我甚至不确定为什么我需要flatMap。

实现这一目标的最佳/最快方式是什么？

Answer 1

将您的数据框转换为pandas数据框

df_pd = df.toPandas()

然后使用，

%matplotlib inline
import matplotlib.pyplot as plt
df_pd.hist(column='column name')

这应该有效