应用错误收集

如何使用嵌入DSE的pyspark进行repartitionByCassandraReplica或joinWithCassandraTable？

时间：2016-02-10 15:47:12

标签： apache-spark cassandra pyspark datastax-enterprise

如何使用嵌入DSE的pyspark（datastax-entreprise 4.8）进行repartitionByCassandraReplica或joinWithCassandraTable？

1 个答案:

答案 0 :(得分：1)

首先，reparttionByCassandraReplica仅适用于RDD，而不适用于DataFrame（因此pySpark无法实现）。

joinWithCassandraTable假设使用DataFrame无法将连接下推到Cassandra（因此pySpark无法实现）。

有时，使用普通Scala代码执行Spark作业仍然是优化和执行join＆amp; amp;谓词下推。