如何将结构化流写入S3?

时间:2018-08-26 14:19:54

标签: apache-spark amazon-s3 spark-structured-streaming

我一直在寻找如何将结构化流结果写入s3的方法,但是找不到解决方法。我尝试了几种选择,但每种选择均导致不同的错误。这是我想做的:

  • 读取csv流
  • 将其缩减为2-3行的结果,其中包含一组平均值。像这样:

    groupA, 15000
    groupB, 10000
    
  • 然后将这些结果写入单个文件中的s3存储桶,可能随着新输入流的出现而被覆盖。所以我尝试这样做:

    query.writeStream
    .format("text")
    .option("path", s3n://...")
    .outputMode("complete")
    ... 
    

但是它不起作用,Spark抱怨文本格式不能处于完整的输出模式。但是完整模式不是唯一可以给我想要的结果的选项吗?我也尝试了追加模式,但随后星火抱怨我有聚合并且应该有水印。但是水印不是因为我的csv中没有时间戳而与我的问题无关吗?

0 个答案:

没有答案