应用错误收集

我正在使用带有一些复杂查询的Spark Sql运行一个作业（按7个字段分组，按5个字段和等级划分等）。当我在大型数据集（木地板上的1TB）上运行作业时，其中一个阶段的任务反序列化时间非常长。但是日志只是说它从镶木地板文件中读取数据（来自S3）。谁能帮助我理解为什么会这样。我可以说罐子大小不是问题，因为我在其他阶段都没有看到这个。

如果我必须使用Kyro序列化，我将如何将其与数据集一起使用？（我没有使用任何自定义对象）

Spark - 高任务反序列化时间

0 个答案: