spark.streaming.backpressure。*属性是否适用于Spark结构化流

时间:2018-09-02 19:20:34

标签: scala apache-spark spark-streaming spark-structured-streaming

我的理解是,Spark结构化流是建立在Spark SQL之上,而不是Spark流。因此,以下问题适用于Spark流的属性是否也适用于Spark结构化的流,例如:

spark.streaming.backpressure.initialRate spark.streaming.backpressure.enabled spark.streaming.receiver.maxRate

2 个答案:

答案 0 :(得分:0)

否,这些设置仅适用于 DStream API。 Spark Structured Streaming 没有背压机制。您可以在此讨论中找到更多详细信息:How Spark Structured Streaming handles backpressure?

答案 1 :(得分:0)

没有

Spark Structured Stream 默认情况下会尽快处理数据 - 在完成当前批次之后。您可以通过各种类型的处理速率进行控制,例如maxFilesPerTrigger 用于文件,maxOffsetsPerTrigger 用于 KAFKA。

此链接 http://javaagile.blogspot.com/2019/03/everything-you-needed-to-know-about.html 说明背压不相关。

  • 引用:“结构化流不能做真正的背压,因为,例如,Spark 不能告诉其他应用程序减慢将数据推送到 Kafka 的速度。”
    • 我不确定这方面是否相关,因为 KAFKA 会缓冲数据。尽管如此,恕我直言,这篇文章还是有好处的。