如何使用嵌入DSE的pyspark(datastax-entreprise 4.8)进行repartitionByCassandraReplica或joinWithCassandraTable?
答案 0 :(得分:1)
首先,reparttionByCassandraReplica
仅适用于RDD,而不适用于DataFrame(因此pySpark无法实现)。
joinWithCassandraTable
假设使用DataFrame无法将连接下推到Cassandra(因此pySpark无法实现)。
有时,使用普通Scala代码执行Spark作业仍然是优化和执行join& amp;谓词下推。