标签: apache-spark hdfs
我想执行从Kafka到HDFS的Spark流传输,如何基于基于文件名创建的时间戳将rdds保存为其他文件名?我相信我们可以使用partitionBy函数存储在特定分区中,但是我们还可以根据写入的时间戳来控制写入的文件名吗?
注意-我知道我们可以使用KafkaConnect进行操作,但是我想使用从Kafka到HDFS的Spark流进行操作