我正在使用apache toree scala noteabook进行结构化流式传输,并希望创建一个数据框,汇总(分组,计数)我的数据并将摘要输出到镶木地板文件。 但我所看到的只是空文件。这是我笔记本上的相关代码:
val streamingCountsDF =
streamingInputDF
.withWatermark("timestamp", "1 week")
.dropDuplicates("timestamp","request")
.groupBy($"request",window($"timestamp", "1 hour"))
.count()
streamingCountsDF.isStreaming
val query = streamingCountsDF
.writeStream
.format("parquet")
.trigger(Trigger.ProcessingTime(10.second))
.option("path",parquetOutputPath)
.option("checkpointLocation","s3://mypath")
.outputMode("append")
.start()
我缺少什么想法?
答案 0 :(得分:0)
您已跳过路径。
streamingCountsDF.writeStream
.trigger(Trigger.ProcessingTime(triggerTime))
.format("parquet")
.option("checkpointLocation", s"$s3BaseUrl/check")
.option("path", s3BaseUrl)
.start()
答案 1 :(得分:0)
其实我有路径。 当我们看到它确实有效时,只花了很长时间写出文件。所以我将关闭这个问题