当我在kafka中为来自kafka的传入数据创建数据流时,我收到以下警告 - WARN TaskSetManager:阶段1包含一个非常大的任务(1057 KB)。建议的最大任务大小为100 KB。
所以我认为我需要增加任务大小,那么我们可以通过增加RDD的分区来解决这个问题吗?以及如何将舞台划分为小任务以及如何配置这些任务的大小?
提前致谢。
答案 0 :(得分:0)
那么我们可以通过增加RDD的分区来解决这个问题吗?
完全没有。任务大小是发送给exectuor的数据量。这包括函数定义和序列化闭包。修改拆分对你没有帮助。
一般来说,这个警告并不重要,我不会太担心,但这是一个暗示你应该再看看你的代码: