我正在使用带有cassandra的apache Spark。我能够创建RDD并获得结果。我正在使用Calliope。
我试着找到很多关于如何在不手动刷新的情况下更新RDD的方法。我找到了几个可以使用calliope cassandra steraming在Cassandra中保存数据的例子,但是我没有找到任何东西来每隔几秒获取一次数据并保持我的RDD更新。如果有人对此有所了解,请告诉我。
答案 0 :(得分:1)
您不希望经常使用Spark重新查询数据,因为它别无选择,只能每次都重新加载整个表(它无法知道更新的内容)。如果要处理持续更新,则应将更新发送到队列中,然后使用Spark流处理它们。