在火花结构化流中持久保存过期状态(超出水印)

时间:2019-12-26 09:04:34

标签: apache-spark apache-kafka spark-structured-streaming

在这里我正在寻找将过期状态持久化到另一个接收器。.Kafka主题说bad_records。我在状态中找不到任何api可以在到期时再次触发。

处理不良记录更像是一个常见问题。我们如何处理结构化流媒体呢?


Schema ->  timestamp | tms | flag 

Scala > ingestRec.groupBy(col("tms")).agg(collect_list("flag").as("uri")).filter(size(col("flag")) === 3).select(col("tms").cast("string"), to_json(struct(col("*"))).as("value")).coalesce(1).writeStream.trigger(Trigger.ProcessingTime(“10 seconds”)).format("kafka").option("kafka.bootstrap.servers", “broker1:9092").option("topic”,”topic-agg”).outputMode("update”).start().awaitTermination```

expected Schema -> tms |arrays [flag] 

0 个答案:

没有答案