使用Spark流从Kafka到HDFS另存为基于时间的文件吗?

时间:2019-07-07 05:29:27

标签: apache-spark hdfs

我想执行从Kafka到HDFS的Spark流传输,如何基于基于文件名创建的时间戳将rdds保存为其他文件名?我相信我们可以使用partitionBy函数存储在特定分区中,但是我们还可以根据写入的时间戳来控制写入的文件名吗?

注意-我知道我们可以使用KafkaConnect进行操作,但是我想使用从Kafka到HDFS的Spark流进行操作

0 个答案:

没有答案