虽然可以通过Spark的REST API获取执行概要分析的许多数据,但还有其他方法可以获取应用程序整体执行的数据吗?每个任务在调度程序中花费的时间,数据序列化需要多长时间?
答案 0 :(得分:0)
基于Spark's documentation,您可以启用Spark的分析器将所有配置文件输出到所需的文件夹。该代码段显示了如何执行此操作:
spark-submit --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=<path_to_directory>
在该文件中,您可以找到在执行Spark应用程序时发生的每个事件的信息和时间戳。如果您搜索SparkListenerTaskEnd
,您将能够获得执行者执行该特定任务所执行时间的信息,以及serialization times
,deserialization
,Write result times
。