应用错误收集

我想使用火花流来实现此功能，该火花流访问每个子文件夹并从那里捕获文件。

import os
rootdir = 'C:\user\Data_Sources'

for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        temp = os.path.join(subdir, file)

到目前为止，我已经做到了，但是它仅适用于3个子目录。如果我在每个子目录中增加了“ *”的数量，那么spark流只会读取最后两个目录中的文件，而使其余的先前目录保持未读状态。

 df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)

递归文件读取Spark Streaming

0 个答案: