应用错误收集

如何调试慢速PySpark应用程序

时间：2018-05-08 07:31:54

标签： apache-spark pyspark

可能有一个明显的答案，但经过大量的谷歌搜索后我找不到任何答案。

在一个典型的程序中，我通常会添加日志消息来计算代码的不同部分，并找出瓶颈所在的位置。然而，使用Spark / PySpark，转换被懒惰地评估，这意味着大多数代码在几乎恒定的时间内执行（至少不是数据集大小的函数），直到最后调用一个动作。

那么如何通过在必要和可能的情况下采取不同的方式来实现单个转换的计时并且可能使代码的某些部分更有效？

1 个答案:

答案 0 :(得分：1)

您可以使用Spark UI查看作业的执行计划以及每个阶段的时间。然后，您可以使用该统计信息优化您的操作。以下是使用Spark UI监控Spark应用程序的非常好的演示https://youtu.be/mVP9sZ6K__Y（Spark Sumiit Europe 2016，Jacek Laskowski）

如何调试慢mysql
应用程序在调试模式下运行非常慢
如何调试慢速Office应用程序互操作构造函数？
如何调试慢速SQL Server查询？
如何在Debug Jupyter Notebook中使用PySpark代码
SparkStreaming应用程序太慢
可以安全地假设在rdd上减去pyspark的速度很慢/有问题吗？
Gogland启动调试应用程序很慢
如何调试慢速PySpark应用程序
如何在PySpark中调试MemoryError

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？