应用错误收集

Spark Streaming Kafka Stream批处理执行

时间：2018-11-28 20:31:29

标签： java apache-spark apache-kafka spark-streaming spark-streaming-kafka

我是火花流媒体方面的新手，我对它的用法有一个普遍的疑问。我目前正在实现一个从Kafka主题流式传输数据的应用程序。

使用应用程序仅一次运行批处理（例如一天结束），从主题中收集所有数据，进行一些汇总和转换等是常见的情况吗？

这意味着在使用spark-submit启动应用程序之后，所有这些工作将分批执行，然后将关闭应用程序。还是创建Spark Stream来连续连续地运行无尽且永久的数据？

1 个答案:

答案 0 :(得分：2)

您可以使用kafka-stream api，并修复窗口时间，一次仅对一批主题中的事件执行聚合和转换。有关开窗的移动信息，请检查此https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#windowing