应用错误收集

我正在使用spark 2.3。我使用下面的代码使用pyspark监视目录中的文件。

sparkStreaming2 = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()

setJsonStream=sparkStreaming2.readStream.schema(json_schema).\
  option("maxFilesPerTrigger", 1).\
  csv("/logdir")
sql1=setJsonStream.groupby('gt').count()
jsonQuery=sql1.writeStream.outputMode("complete").format("console").start()

此代码运行正常。

但是现在我们必须打印已处理文件的名称（因为我们一次要读取1个文件）。

有什么方法可以实现它。

获取正在pyspark结构化流中处理的文件的名称

0 个答案: