Picture:Some of the Spark RDD tasks are in RUNNING status all the time without data processing
Spark Stage正在使用newAPIHadoopRDD接口从MongoDB读取数据,大部分任务已完成,但两个任务始终处于RUNNING状态,并且执行程序的CPU和内存处于低占用状态。而且我认为这与Mongodb无关,因为另一份阅读kafka流媒体的工作也有类似的行为。有什么问题?
答案 0 :(得分:0)
我想我找到了原因。我在一个Serializable类A中添加了一个带有init函数的静态成员对象,另一个Serializable类B实例使用了上面A类的静态成员函数F1,当我将F1转换为一个不可序列化的类时,问题就消失了。所以我猜这是一个时间序列问题:当调用F1时,A类不能通过可序列化的过程来实现。