标签: pyspark databricks spark-structured-streaming azure-eventhub azure-databricks
我正在Databricks中运行Spark结构化流媒体作业。它具有Azure Eventhub作为源。当我查看查询图时,会看到以下内容:
输入速率中有很大的峰值,但是处理速率对这些峰值没有真正的反应。但是从输出结果来看,似乎有些消息没有被处理/跳过。
是否有这种行为的解释?
编辑: 更长的时间框架图片 可以看出,在较低的每秒记录范围内,输入速率和处理速率会一起上升。.但是根据该图,当输入处理峰值太大时,Spark无法跟上。