我有一个Spark结构化的流应用程序,该应用程序从kafka读取数据并将其写入hdfs。我想根据当前日期动态更改hdfs的写入路径,但似乎结构化流无法正常工作。它仅创建一个应用程序启动日期的文件夹,即使日期更改,也继续写入同一文件夹。有什么方法可以根据当前日期动态更改路径?
下面是我的写流的样子
TypeError: function takes exactly 1 argument (0 given)
答案 0 :(得分:0)
解决方案:我通过将当前日期列(例如'loaddate')添加到父数据框'dfresult',然后按该列对写入流进行分区来解决此问题。
dswWriteStream.partitionBy('loaddate')