Question

我有一个Spark结构化的流应用程序，该应用程序从kafka读取数据并将其写入hdfs。我想根据当前日期动态更改hdfs的写入路径，但似乎结构化流无法正常工作。它仅创建一个应用程序启动日期的文件夹，即使日期更改，也继续写入同一文件夹。有什么方法可以根据当前日期动态更改路径？

下面是我的写流的样子

TypeError: function takes exactly 1 argument (0 given)

Answer 1

解决方案：我通过将当前日期列（例如'loaddate'）添加到父数据框'dfresult'，然后按该列对写入流进行分区来解决此问题。

dswWriteStream.partitionBy('loaddate')