spark如何创建阶段并将它们分成火花数据流的小任务?

时间:2018-05-04 06:00:06

标签: apache-spark spark-dataframe spark-streaming

当我在kafka中为来自kafka的传入数据创建数据流时,我收到以下警告 - WARN TaskSetManager:阶段1包含一个非常大的任务(1057 KB)。建议的最大任务大小为100 KB。

所以我认为我需要增加任务大小,那么我们可以通过增加RDD的分区来解决这个问题吗?以及如何将舞台划分为小任务以及如何配置这些任务的大小?

提前致谢。

1 个答案:

答案 0 :(得分:0)

  

那么我们可以通过增加RDD的分区来解决这个问题吗?

完全没有。任务大小是发送给exectuor的数据量。这包括函数定义和序列化闭包。修改拆分对你没有帮助。

一般来说,这个警告并不重要,我不会太担心,但这是一个暗示你应该再看看你的代码:

  • 您是否使用操作/转换引用大对象?如果是,请考虑使用广播变量。
  • 您确定只发送了您希望发送的内容,而不是发送范围(如大型对象)。如果问题出现在你的代码结构上。