有一个cassandra表,我通过DF和RDD得到它以便计数行。但是count方法为每个计数过程返回不同的大小。为什么呢如何获得一致和真实的结果?
val productDF= spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> "test", "table" -> "product")).load()
productDF.count() // 93789122
productDF.count() // 93789456
productDF.count() // 93789274
val productRDD = sc.cassandraTable("test", "product")
productRDD.count() // 93789632
productRDD.count() // 93789075
productRDD.count() // 93789245
我尝试了collect()方法,但出现内存异常。