我在火花流应用程序的DStreams的foreachRDD函数中对具有4个分区的rdd进行了以下操作:
print rdd.count()
print rdd.collect()
第一条语句rdd.count()
通常被执行,而第二条语句始终被RUNNING状态阻止,如下图所示:
但是,当我查看日志时,它表明任务已完成。
18/11/09 16:45:30 INFO executor.Executor: Finished task 3.0 in stage 26.0 (TID 555). 197621638 bytes result sent via BlockManager)
出什么问题了?
火花版本为pyspark == 2.2.1,簇为纱线上的火花。