应用错误收集

你无法告诉Storm，元组是流的最后一个。但是，如果您知道刚刚从Spout发出最后一个元组，则可以为自己设置内部标记，并等待直到您在Spout中收到所有acks。收到所有acks后，您就会知道Storm完全处理了所有元组。

对于问题2，我不清楚你的意思是＆＃34;做同样的处理＆＃34;？看来，你想在不同的模式下处理相同的数据两次（或者我理解错了）？为什么要区分＆＃34; stream＆＃34;和＆＃34;批次＆＃34;案件？你想要获得的不同语义是什么？你是什么意思＆＃34;将元组作为一批元组加入＃34;。你知道你有一个有限的数据流吗？您想将所有元组放入一个批处理中吗？或者你想做一些微批处理？

对于微批处理，Trident会很有用。如果你有一个真正的批处理工作，Storm就不合适了。为此，您可能需要查看Apache Flink（免责声明，我是Flink的提交者）或Apache Spark。两者都是支持批量和流媒体的混合系统。根据您对流式语义的需求，这些或其他可能更适合。 Spark提供微批处理以模拟流式传输，而Flink则实时流式传输。

风暴批处理

1 个答案: