我有一种情况,我从AWS kinesis收集数据到apache spark over streaming。在我收到批处理持续时间的数据后,我处理这些数据并在cassandra中更新。这里的处理应该以这样的方式完成,直到结果没有在cassandra中更新,spark不应该重新接收下一批记录。 那么,如何停止下一批记录的流式传输直到当前批次没有被处理?
答案 0 :(得分:0)
Spark Streaming不支持此类功能。您可以在从每个批次的kinesis接收数据后检查行数,如果没有记录(计数等于零),则不要调用cassandra更新和插入API。