流目录是主目录,其中有多个子目录。
我想使用火花流来实现此功能,该火花流访问每个子文件夹并从那里捕获文件。
import os
rootdir = 'C:\user\Data_Sources'
for subdir, dirs, files in os.walk(rootdir):
for file in files:
temp = os.path.join(subdir, file)
到目前为止,我已经做到了,但是它仅适用于3个子目录。如果我在每个子目录中增加了“ *”的数量,那么spark流只会读取最后两个目录中的文件,而使其余的先前目录保持未读状态。
df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)