Question

我正在使用Spark流（在java中）来消费来自Kafka的消息。我在rdd上做了一些处理。现在，我应该将此处理过的信息（字符串）写入s3上的文件。我如何实现这一目标？

directKafkaStream.map(message -> recordInjection.invert(message._2).get()).foreachRDD(rdd -> {
                rdd.foreach(record -> {
  // processing each record, storing the processed info in a string.
  // write each processed record (string) to s3
  });
});

Answer 1

您可以使用RDD.saveAsTextFile（＆＃34; s3a：//bucket/path/file.avro"），但您可能会发现自己创建了许多小文件。

在火花流中写入处理过的文件

1 个答案: