我有一个运行Spark v1.6.1和Cassandra V2.2.5的集群,它们同时位于集群中的每个节点上。在仅运行cassandra
进程(spark-worker
进程已停止)的情况下添加其他节点时,看不到任何错误或对同时运行cassandra和spark进程的现有节点的影响。我期望作业会出错,因为在这种情况下数据局部性不再适用。
我对DStream
进行以下转换; stream.repartitionByCassandraReplica(keyspace.value, tableName, numberOfPartitions)
我无法推理为什么工作正常。我想了解什么吗?