如何使用嵌入DSE的pyspark进行repartitionByCassandraReplica或joinWithCassandraTable?

时间:2016-02-10 15:47:12

标签: apache-spark cassandra pyspark datastax-enterprise

如何使用嵌入DSE的pyspark(datastax-entreprise 4.8)进行repartitionByCassandraReplica或joinWithCassandraTable?

1 个答案:

答案 0 :(得分:1)

首先,reparttionByCassandraReplica仅适用于RDD,而不适用于DataFrame(因此pySpark无法实现)。

joinWithCassandraTable假设使用DataFrame无法将连接下推到Cassandra(因此pySpark无法实现)。

有时,使用普通Scala代码执行Spark作业仍然是优化和执行join& amp;谓词下推。