apache-spark - 如何在处理批处理持续时间内收到的数据之前停止火花流？

如何在处理批处理持续时间内收到的数据之前停止火花流？

时间：2018-06-11 11:53:48

标签： apache-spark spark-streaming

我有一种情况，我从AWS kinesis收集数据到apache spark over streaming。在我收到批处理持续时间的数据后，我处理这些数据并在cassandra中更新。这里的处理应该以这样的方式完成，直到结果没有在cassandra中更新，spark不应该重新接收下一批记录。那么，如何停止下一批记录的流式传输直到当前批次没有被处理？

1 个答案:

答案 0 :(得分：0)

Spark Streaming不支持此类功能。您可以在从每个批次的kinesis接收数据后检查行数，如果没有记录（计数等于零），则不要调用cassandra更新和插入API。

暂停批处理文件，直到服务停止完成？
停止批处理文件，直到网站停止完成？
什么样的火花操作并行处理？
Spark Streaming：如何在Python中获取已处理文件的文件名
Spark UI输出操作持续时间与工作持续时间：差异是什么？
如何设置批处理中处理的文档数量？
在Spark Streaming中如何处理旧数据并删除已处理的数据
如何在处理批处理持续时间内收到的数据之前停止火花流？
如何检测Spark流处理了所有消息？
流数据如何处理？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？