我正在使用spark从JavaRDD数据框中过滤出数据。 它大约有2900000条记录,我需要过滤29000条记录。 没有内存问题,因为我正在使用具有足够内存的超级服务器。
下面是代码
JavaRDD<SomeClass> sample = dataframe.javaRDD().map{..........};
Dataset<Row> data= spark.createDataFrame(sample.rdd(), SomeClass.class).filter(col("column1").isNotNull());
它只是挂在第二行几个小时。当我尝试通过暂停调试来检查调试点时,我发现代码停留在sun.misc.Unsafe.park。
我检查了类似的答案,但没有帮助。
也没有CPU利用率。而且,当我使用超级服务器时,不会有任何内存问题。