来自(Py)Spark框架

时间:2017-01-31 10:17:20

标签: apache-spark pyspark data-visualization spark-dataframe

有关Spark DataFrames方法可视化的问题。

就目前而言(我使用v.2.0.0),Spark DataFrames还没有任何可视化功能。通常,解决方案是将一些示例的DataFrame收集到驱动程序中,将其加载到例如Pandas DataFrame中,并使用其可视化功能。

我的问题是:如何最大限度地利用驱动程序的内存来了解最佳采样大小,以便可视化数据?或者,解决此问题的最佳做法是什么?

谢谢!

2 个答案:

答案 0 :(得分:0)

我认为这不会回答您的问题,但希望可以为其他人或您提供一些观点。

我通常聚集在spark上,然后使用Pandas进行可视化(但不要将其存储到变量中)。在示例(简化)中,我将每天计算活动用户,然后仅通过熊猫收集并可视化此计数(在可能的情况下,我尽量避免将数据保存到变量中):

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

答案 1 :(得分:0)

Spark SQL(数据框)之上有一个可视化工具,为此您可以使用 Apache Zeppelin 笔记本(这是开源笔记本),您可以在其中以图形格式查看结果的可视化。

关于这款笔记本电脑的好事,它内置了对火花集成的支持,因此无需进行任何配置。至于其他问题,关于内存采样的Zeppenlin笔记本与此很容易获得。有关zeppenlin笔记本电脑Spark支持的更多信息,请参阅此link