Question

我正在使用apache toree scala noteabook进行结构化流式传输，并希望创建一个数据框，汇总（分组，计数）我的数据并将摘要输出到镶木地板文件。但我所看到的只是空文件。这是我笔记本上的相关代码：

    val streamingCountsDF =   
         streamingInputDF
.withWatermark("timestamp", "1 week")
.dropDuplicates("timestamp","request")
.groupBy($"request",window($"timestamp", "1 hour"))
.count()
   streamingCountsDF.isStreaming


    val query =   streamingCountsDF
.writeStream
.format("parquet")        
.trigger(Trigger.ProcessingTime(10.second))
.option("path",parquetOutputPath)
.option("checkpointLocation","s3://mypath")    
.outputMode("append")    
.start()

我缺少什么想法？

Answer 1

您已跳过路径。

 streamingCountsDF.writeStream
                .trigger(Trigger.ProcessingTime(triggerTime))
                .format("parquet")
                .option("checkpointLocation", s"$s3BaseUrl/check")
                .option("path", s3BaseUrl)
                .start()

Answer 2

其实我有路径。当我们看到它确实有效时，只花了很长时间写出文件。所以我将关闭这个问题

使用结构化流输出将聚合数据输出到镶木地板

2 个答案: