使用结构化流输出将聚合数据输出到镶木地板

时间:2017-09-24 13:56:21

标签: apache-spark-sql

我正在使用apache toree scala noteabook进行结构化流式传输,并希望创建一个数据框,汇总(分组,计数)我的数据并将摘要输出到镶木地板文件。 但我所看到的只是空文件。这是我笔记本上的相关代码:

    val streamingCountsDF =   
         streamingInputDF
.withWatermark("timestamp", "1 week")
.dropDuplicates("timestamp","request")
.groupBy($"request",window($"timestamp", "1 hour"))
.count()
   streamingCountsDF.isStreaming


    val query =   streamingCountsDF
.writeStream
.format("parquet")        
.trigger(Trigger.ProcessingTime(10.second))
.option("path",parquetOutputPath)
.option("checkpointLocation","s3://mypath")    
.outputMode("append")    
.start()

我缺少什么想法?

2 个答案:

答案 0 :(得分:0)

您已跳过路径。

 streamingCountsDF.writeStream
                .trigger(Trigger.ProcessingTime(triggerTime))
                .format("parquet")
                .option("checkpointLocation", s"$s3BaseUrl/check")
                .option("path", s3BaseUrl)
                .start()

答案 1 :(得分:0)

其实我有路径。 当我们看到它确实有效时,只花了很长时间写出文件。所以我将关闭这个问题