我有一个大的pyspark数据帧,并且想要一个列的直方图。
我能做到:
df.select.("col").rdd.flatMap(lambda x: x).histogram(100)
但这很慢,似乎将数据帧转换为rdd,我甚至不确定为什么我需要flatMap。
实现这一目标的最佳/最快方式是什么?
答案 0 :(得分:0)
将您的数据框转换为pandas数据框
df_pd = df.toPandas()
然后使用,
%matplotlib inline
import matplotlib.pyplot as plt
df_pd.hist(column='column name')
这应该有效