标签: apache-spark pyspark
我正在尝试调查PySpark作业中散乱的任务(比p50 / p75任务花费更长的时间),以了解为什么某些任务在同一阶段要比其他任务花费更长的时间。
默认的PySpark探查器为RDD提供汇总统计信息,但是有没有办法我可以在任务级别获取分析统计信息?