流聚合未写入接收器

时间:2019-09-27 13:05:14

标签: pyspark spark-structured-streaming azure-databricks delta-lake

我必须处理一些每天收到的文件。该信息具有主键(日期,client_id,operation_id)。因此,我创建了一个Stream,仅将新数据附加到增量表中:

operations\
        .repartition('date')\
        .writeStream\
        .outputMode('append')\
        .trigger(once=True)\
        .option("checkpointLocation", "/mnt/sandbox/operations/_chk")\
        .format('delta')\
        .partitionBy('date')\
        .start('/mnt/sandbox/operations')

这工作正常,但是我需要总结按(date,client_id)分组的信息,因此我创建了另一个从此操作表到新表的流。因此,我尝试将date字段转换为时间戳,以便在编写聚合流时可以使用附加模式:

import pyspark.sql.functions as F

summarized= spark.readStream.format('delta').load('/mnt/sandbox/operations')
summarized= summarized.withColumn('timestamp_date',F.to_timestamp('date'))
summarized= summarized.withWatermark('timestamp_date','1 second').groupBy('client_id','date','timestamp_date').agg(<lot of aggs>)

summarized\
        .repartition('date')\
        .writeStream\
        .outputMode('append')\
        .option("checkpointLocation", "/mnt/sandbox/summarized/_chk")\
        .trigger(once=True)\
        .format('delta')\
        .partitionBy('date')\
        .start('/mnt/sandbox/summarized')

此代码可以运行,但不会在接收器中写入任何内容。

为什么不将结果写入接收器?

1 个答案:

答案 0 :(得分:0)

这里可能有两个问题。

格式错误的日期输入

我很确定问题是F.to_timestamp('date')会由于输入格式错误而产生null

如果是这样,withWatermark('timestamp_date','1 second')永远不会“物化”,并且不会触发任何输出。

您能spark.read.format('delta').load('/mnt/sandbox/operations')(到read而不是readStream)看看转换是否给出正确的值吗?

spark.\
  read.\ 
  format('delta').\
  load('/mnt/sandbox/operations').\
  withColumn('timestamp_date',F.to_timestamp('date')).\
  show

所有行都使用相同的时间戳

withWatermark('timestamp_date','1 second')也有可能没有完成(因此“完成”了一个聚合),因为所有行都来自同一时间戳,因此时间不会提前。

您应该具有不同时间戳的行,以便每个timestamp_date的时间概念可以超过'1 second'延迟窗口。