我一直在寻找如何将结构化流结果写入s3的方法,但是找不到解决方法。我尝试了几种选择,但每种选择均导致不同的错误。这是我想做的:
将其缩减为2-3行的结果,其中包含一组平均值。像这样:
groupA, 15000
groupB, 10000
然后将这些结果写入单个文件中的s3存储桶,可能随着新输入流的出现而被覆盖。所以我尝试这样做:
query.writeStream
.format("text")
.option("path", s3n://...")
.outputMode("complete")
...
但是它不起作用,Spark抱怨文本格式不能处于完整的输出模式。但是完整模式不是唯一可以给我想要的结果的选项吗?我也尝试了追加模式,但随后星火抱怨我有聚合并且应该有水印。但是水印不是因为我的csv中没有时间戳而与我的问题无关吗?