标签: apache-spark cassandra spark-cassandra-connector
我正在寻找一种让Spark RDD与Cassandra表保持同步的方法。我知道可以将完整的Cassandra表作为一次性操作加载到RDD中,但是希望使RDD与发生在Cassandra表中的更新保持同步。 这样每次我需要将新数据导入Spark时都不会将整个表重新加载到Spark中(如果表很大,这可能会很长)。 任何提示?