标签: apache-spark pyspark apache-spark-sql spark-streaming
我环顾四周,似乎找不到任何东西。我想知道是否有一种方法可以让Spark Streaming作业为您提供它编写的文件的列表。我知道有input_file_name UDF,output_file_name是否有某种类似的UDF?
input_file_name
output_file_name
也许是这样的伪代码:
writer = df.write.partitionBy("foo", "bar").parquet("s3://bucket/") output_file_names = writer.getOutputFilesNames()