将Cassandra count(*)
运行到桌子后,我得到了值 254617922 。但在spark-shell
中,我只得到 2865767 在运行相同的count(*)
时。
我尝试在spark群集和本地计算机上运行,但它显示相同的值。可能是什么原因?
环境详情:
在spark-shell中运行的相关代码是:
$SPARK_HOME/bin/spark-shell \
--conf spark.cassandra.connection.host=127.0.0.1 \
--packages datastax:spark-cassandra-connector:2.0.3-s_2.11
import com.datastax.spark.connector._
import org.apache.spark.sql.cassandra._
import org.apache.spark.rdd.RDD
val rdd = sc.cassandraTable("key", "table")
println(rdd.count)