Question

有关Spark DataFrames方法可视化的问题。

就目前而言（我使用v.2.0.0），Spark DataFrames还没有任何可视化功能。通常，解决方案是将一些示例的DataFrame收集到驱动程序中，将其加载到例如Pandas DataFrame中，并使用其可视化功能。

我的问题是：如何最大限度地利用驱动程序的内存来了解最佳采样大小，以便可视化数据？或者，解决此问题的最佳做法是什么？

谢谢！

Answer 1

我认为这不会回答您的问题，但希望可以为其他人或您提供一些观点。

我通常聚集在spark上，然后使用Pandas进行可视化（但不要将其存储到变量中）。在示例（简化）中，我将每天计算活动用户，然后仅通过熊猫收集并可视化此计数（在可能的情况下，我尽量避免将数据保存到变量中）：

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

Answer 2

Spark SQL（数据框）之上有一个可视化工具，为此您可以使用 Apache Zeppelin 笔记本（这是开源笔记本），您可以在其中以图形格式查看结果的可视化。

关于这款笔记本电脑的好事，它内置了对火花集成的支持，因此无需进行任何配置。至于其他问题，关于内存采样的Zeppenlin笔记本与此很容易获得。有关zeppenlin笔记本电脑Spark支持的更多信息，请参阅此link。