DataFrame和RDD计数方法为每个查询返回不同的大小。为什么?

时间:2018-06-20 06:42:42

标签: scala apache-spark cassandra apache-spark-sql rdd

有一个cassandra表,我通过DF和RDD得到它以便计数行。但是count方法为每个计数过程返回不同的大小。为什么呢如何获得一致和真实的结果?

val productDF= spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> "test", "table" -> "product")).load()

productDF.count()  // 93789122
productDF.count()  // 93789456
productDF.count()  // 93789274

val productRDD = sc.cassandraTable("test", "product")

productRDD.count()  // 93789632
productRDD.count()  // 93789075
productRDD.count()  // 93789245

我尝试了collect()方法,但出现内存异常。

0 个答案:

没有答案