在Spark结构化流中动态更改HDFS写入路径

时间:2019-04-12 07:28:58

标签: apache-spark spark-streaming spark-structured-streaming

我有一个Spark结构化的流应用程序,该应用程序从kafka读取数据并将其写入hdfs。我想根据当前日期动态更改hdfs的写入路径,但似乎结构化流无法正常工作。它仅创建一个应用程序启动日期的文件夹,即使日期更改,也继续写入同一文件夹。有什么方法可以根据当前日期动态更改路径?

下面是我的写流的样子

TypeError: function takes exactly 1 argument (0 given)

1 个答案:

答案 0 :(得分:0)

解决方案:我通过将当前日期列(例如'loaddate')添加到父数据框'dfresult',然后按该列对写入流进行分区来解决此问题。

dswWriteStream.partitionBy('loaddate')