我们正在使用结构化Spark Streaming 和 spark-eventhubs 包来从Azure IoTHub中读取消息。在某些情况下,Spark检查点无法正常工作。因此,我们希望能够手动设置起始偏移。
我们的计划是在IoThub参数图中手动分配偏移量,方法是设置:
"eventhubs.filter.offset" -> {"partitionKey1":"Offset1", ...}
或"eventhubs.startingOffsets" -> {"partitionKey1":"Offset1", ...}
两个版本都不起作用,这意味着Spark总是从IoTHub获得的最早消息开始阅读。
我们也不确定上面的语法是否正常,因为没有关于此的文档。
我们使用Spark 2.1和来自Maven的spark-eventhubs包:
"com.microsoft.azure" % "spark-streaming-eventhubs_2.11" % "2.1.1"
答案 0 :(得分:0)
我最近几周前继承了这个图书馆。在当前版本(2.1.5)中,不支持每个分区配置,并且缺少大量文档。
下一个版本将支持每个分区配置的起始偏移(或排队时间)和最大速率。还会有更多改进。此外,还将发布有关配置库并将其与结构化流,Spark Streaming和Spark Core一起使用的新文档。我很快就会在GitHub上发布详细的路线图。
很抱歉给您带来了麻烦,感谢您的关注。我试图将图书馆打造成形状,所以如果你有更多的反馈/问题,我很高兴在这里或GitHub上聊天!