我正在使用spark 2.3。 我使用下面的代码使用pyspark监视目录中的文件。
sparkStreaming2 = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()
setJsonStream=sparkStreaming2.readStream.schema(json_schema).\
option("maxFilesPerTrigger", 1).\
csv("/logdir")
sql1=setJsonStream.groupby('gt').count()
jsonQuery=sql1.writeStream.outputMode("complete").format("console").start()
此代码运行正常。
但是现在我们必须打印已处理文件的名称(因为我们一次要读取1个文件)。
有什么方法可以实现它。