Spark - 高任务反序列化时间

时间:2017-12-19 06:03:27

标签: apache-spark apache-spark-sql spark-dataframe

我正在使用带有一些复杂查询的Spark Sql运行一个作业(按7个字段分组,按5个字段和等级划分等)。当我在大型数据集(木地板上的1TB)上运行作业时,其中一个阶段的任务反序列化时间非常长。但是日志只是说它从镶木地板文件中读取数据(来自S3)。谁能帮助我理解为什么会这样。我可以说罐子大小不是问题,因为我在其他阶段都没有看到这个。

如果我必须使用Kyro序列化,我将如何将其与数据集一起使用? (我没有使用任何自定义对象)

enter image description here

0 个答案:

没有答案