应用错误收集

时间：2018-09-02 19:20:34

标签： scala apache-spark spark-streaming spark-structured-streaming

我的理解是，Spark结构化流是建立在Spark SQL之上，而不是Spark流。因此，以下问题适用于Spark流的属性是否也适用于Spark结构化的流，例如：

spark.streaming.backpressure.initialRate spark.streaming.backpressure.enabled spark.streaming.receiver.maxRate

答案 0 :(得分：0)

否，这些设置仅适用于 DStream API。 Spark Structured Streaming 没有背压机制。您可以在此讨论中找到更多详细信息：How Spark Structured Streaming handles backpressure?

答案 1 :(得分：0)

没有

Spark Structured Stream 默认情况下会尽快处理数据 - 在完成当前批次之后。您可以通过各种类型的处理速率进行控制，例如maxFilesPerTrigger 用于文件，maxOffsetsPerTrigger 用于 KAFKA。

引用：“结构化流不能做真正的背压，因为，例如，Spark 不能告诉其他应用程序减慢将数据推送到 Kafka 的速度。”。
- 我不确定这方面是否相关，因为 KAFKA 会缓冲数据。尽管如此，恕我直言，这篇文章还是有好处的。