Spark没有显示Cassandra中列出的实际数量

时间:2017-08-22 09:24:48

标签: scala apache-spark cassandra datastax spark-cassandra-connector

将Cassandra count(*)运行到桌子后,我得到了值 254617922 。但在spark-shell中,我只得到 2865767 在运行相同的count(*)时。

我尝试在spark群集和本地计算机上运行,​​但它显示相同的值。可能是什么原因?

环境详情:

  • Cassandra:3.11.0
  • Spark:2.2.0
  • 连接器:spark-cassandra-connector_2.11
  • Scala:2.12.1
  • Java:Java 1.8.0_101

在spark-shell中运行的相关代码是:

$SPARK_HOME/bin/spark-shell \
  --conf spark.cassandra.connection.host=127.0.0.1 \
  --packages datastax:spark-cassandra-connector:2.0.3-s_2.11

import com.datastax.spark.connector._
import org.apache.spark.sql.cassandra._
import org.apache.spark.rdd.RDD
val rdd = sc.cassandraTable("key", "table")
println(rdd.count)

0 个答案:

没有答案