Spark Streaming与Kafka实时集成

时间:2018-05-05 11:17:44

标签: apache-spark spark-streaming

我已将Spark Streaming Process与Kafka集成以阅读特定主题。创建Spark上下文,轮询时间为5秒。,它工作正常。但是如果我想实时访问Feed,我可以进一步将其减少到1秒(它会超过杀死吗?)还是有其他更好的选择来处理这种情况。

1 个答案:

答案 0 :(得分:0)

Spark Structured streaming为处理时间提供了几种模式或“触发器”。通过使用连续处理模式,您可以牺牲吞吐量以减少延迟。您可以通过增加触发持续时间来牺牲延迟以获得更多吞吐量。您可以将Scala上的微批次持续时间设置为1秒,在Python上设置为2秒。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#triggers