获取正在pyspark结构化流中处理的文件的名称

时间:2019-07-11 15:19:45

标签: pyspark spark-structured-streaming

我正在使用spark 2.3。 我使用下面的代码使用pyspark监视目录中的文件。

sparkStreaming2 = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()

setJsonStream=sparkStreaming2.readStream.schema(json_schema).\
  option("maxFilesPerTrigger", 1).\
  csv("/logdir")
sql1=setJsonStream.groupby('gt').count()
jsonQuery=sql1.writeStream.outputMode("complete").format("console").start()

此代码运行正常。

但是现在我们必须打印已处理文件的名称(因为我们一次要读取1个文件)。

有什么方法可以实现它。

0 个答案:

没有答案