如何在处理批处理持续时间内收到的数据之前停止火花流?

时间:2018-06-11 11:53:48

标签: apache-spark spark-streaming

我有一种情况,我从AWS kinesis收集数据到apache spark over streaming。在我收到批处理持续时间的数据后,我处理这些数据并在cassandra中更新。这里的处理应该以这样的方式完成,直到结果没有在cassandra中更新,spark不应该重新接收下一批记录。 那么,如何停止下一批记录的流式传输直到当前批次没有被处理?

1 个答案:

答案 0 :(得分:0)

Spark Streaming不支持此类功能。您可以在从每个批次的kinesis接收数据后检查行数,如果没有记录(计数等于零),则不要调用cassandra更新和插入API。