pyspark的read-exec-write profiling

时间:2016-10-09 02:51:47

标签: apache-spark pyspark

虽然可以通过Spark的REST API获取执行概要分析的许多数据,但还有其他方法可以获取应用程序整体执行的数据吗?每个任务在调度程序中花费的时间,数据序列化需要多长时间?

1 个答案:

答案 0 :(得分:0)

基于Spark's documentation,您可以启用Spark的分析器将所有配置文件输出到所需的文件夹。该代码段显示了如何执行此操作:

spark-submit --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=<path_to_directory>

在该文件中,您可以找到在执行Spark应用程序时发生的每个事件的信息和时间戳。如果您搜索SparkListenerTaskEnd,您将能够获得执行者执行该特定任务所执行时间的信息,以及serialization timesdeserializationWrite result times