如果Spark和cassandra未并置,repartitionByCassandraReplica如何工作

时间:2019-06-06 17:17:50

标签: apache-spark cassandra spark-cassandra-connector

我有一个运行Spark v1.6.1和Cassandra V2.2.5的集群,它们同时位于集群中的每个节点上。在仅运行cassandra进程(spark-worker进程已停止)的情况下添加其他节点时,看不到任何错误或对同时运行cassandra和spark进程的现有节点的影响。我期望作业会出错,因为在这种情况下数据局部性不再适用。

我对DStream进行以下转换; stream.repartitionByCassandraReplica(keyspace.value, tableName, numberOfPartitions)

我无法推理为什么工作正常。我想了解什么吗?

0 个答案:

没有答案