我正在使用Spark流(在java中)来消费来自Kafka的消息。我在rdd上做了一些处理。现在,我应该将此处理过的信息(字符串)写入s3上的文件。我如何实现这一目标?
directKafkaStream.map(message -> recordInjection.invert(message._2).get()).foreachRDD(rdd -> {
rdd.foreach(record -> {
// processing each record, storing the processed info in a string.
// write each processed record (string) to s3
});
});
答案 0 :(得分:0)
您可以使用RDD.saveAsTextFile(" s3a://bucket/path/file.avro"),但您可能会发现自己创建了许多小文件。