我是火花流媒体方面的新手,我对它的用法有一个普遍的疑问。我目前正在实现一个从Kafka主题流式传输数据的应用程序。
使用应用程序仅一次运行批处理(例如一天结束),从主题中收集所有数据,进行一些汇总和转换等是常见的情况吗?
这意味着在使用spark-submit启动应用程序之后,所有这些工作将分批执行,然后将关闭应用程序。还是创建Spark Stream来连续连续地运行无尽且永久的数据?
答案 0 :(得分:2)
您可以使用kafka-stream api,并修复窗口时间,一次仅对一批主题中的事件执行聚合和转换。有关开窗的移动信息,请检查此https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#windowing