标签: apache-spark apache-spark-sql spark-streaming
我正在尝试对我的一个spark作业运行性能测试,该作业将数据加载到内存中,然后对数据执行spark-sql操作,最后将结果返回给用户。
我想知道每个阶段的工作花费了多少时间:即火花作业将数据加载到内存所花费的时间以及作业完成执行所花费的时间。有没有可用于此的良好的分析工具。
如果没有,我是否可以使用已有的spark UI /日志来获取此类信息。
或者,如果有其他方法可以获取此数据。
请注意我是Spark的新手,请原谅任何不合逻辑/不相关的问题。
提前致谢!
答案 0 :(得分:1)
应用程序UI(主程序上的默认端口4040)具有"阶段"选项卡,报告每个阶段的持续时间。它看起来像这样: