无法为spark-eventhubs

时间:2017-10-12 11:36:58

标签: azure apache-spark azure-iot-hub spark-structured-streaming

我们正在使用结构化Spark Streaming spark-eventhubs 包来从Azure IoTHub中读取消息。在某些情况下,Spark检查点无法正常工作。因此,我们希望能够手动设置起始偏移。

我们的计划是在IoThub参数图中手动分配偏移量,方法是设置:

  • "eventhubs.filter.offset" -> {"partitionKey1":"Offset1", ...}
  • "eventhubs.startingOffsets" -> {"partitionKey1":"Offset1", ...}

两个版本都不起作用,这意味着Spark总是从IoTHub获得的最早消息开始阅读。

我们也不确定上面的语法是否正常,因为没有关于此的文档。

我们使用Spark 2.1和来自Maven的spark-eventhubs包:

"com.microsoft.azure" % "spark-streaming-eventhubs_2.11" % "2.1.1" 

1 个答案:

答案 0 :(得分:0)

我最近几周前继承了这个图书馆。在当前版本(2.1.5)中,不支持每个分区配置,并且缺少大量文档。

下一个版本将支持每个分区配置的起始偏移(或排队时间)和最大速率。还会有更多改进。此外,还将发布有关配置库并将其与结构化流,Spark Streaming和Spark Core一起使用的新文档。我很快就会在GitHub上发布详细的路线图。

很抱歉给您带来了麻烦,感谢您的关注。我试图将图书馆打造成形状,所以如果你有更多的反馈/问题,我很高兴在这里或GitHub上聊天!