apache-spark - 使用Spark流从Kafka到HDFS另存为基于时间的文件吗？ - Thinbug

使用Spark流从Kafka到HDFS另存为基于时间的文件吗？

时间：2019-07-07 05:29:27

标签： apache-spark hdfs

我想执行从Kafka到HDFS的Spark流传输，如何基于基于文件名创建的时间戳将rdds保存为其他文件名？我相信我们可以使用partitionBy函数存储在特定分区中，但是我们还可以根据写入的时间戳来控制写入的文件名吗？

注意-我知道我们可以使用KafkaConnect进行操作，但是我想使用从Kafka到HDFS的Spark流进行操作

0 个答案:

没有答案