应用错误收集

Spark RDD任务一直处于RUNNING状态而没有数据处理？

时间：2016-12-20 04:38:09

标签： apache-spark task

Picture：Some of the Spark RDD tasks are in RUNNING status all the time without data processing

Spark Stage正在使用newAPIHadoopRDD接口从MongoDB读取数据，大部分任务已完成，但两个任务始终处于RUNNING状态，并且执行程序的CPU和内存处于低占用状态。而且我认为这与Mongodb无关，因为另一份阅读kafka流媒体的工作也有类似的行为。有什么问题？

1 个答案:

答案 0 :(得分：0)

我想我找到了原因。我在一个Serializable类A中添加了一个带有init函数的静态成员对象，另一个Serializable类B实例使用了上面A类的静态成员函数F1，当我将F1转换为一个不可序列化的类时，问题就消失了。所以我猜这是一个时间序列问题：当调用F1时，A类不能通过可序列化的过程来实现。

来自DSE的Spark是否在运行SQL Query之前将所有数据存入RDD？
每个rdd上的apache spark运行任务
Spark：RDD中的数据是否有订单？
org.apache.spark.SparkException：任务不可序列化 - 传递RDD
为什么每项任务都有不同的运行时间成本？
在Spark中计算RDD昂贵任务中的记录？
Spark RDD任务一直处于RUNNING状态而没有数据处理？
如何在不保存所有数据的情况下检查RDD？
将每个RDD值与scala中的RDD中的所有其他值配对
火花流任务始终处于运行状态

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？