递归文件读取Spark Streaming

时间:2019-04-03 08:15:12

标签: python apache-spark pyspark

流目录是主目录,其中有多个子目录。

我想使用火花流来实现此功能,该火花流访问每个子文件夹并从那里捕获文件。

import os
rootdir = 'C:\user\Data_Sources'

for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        temp = os.path.join(subdir, file)

到目前为止,我已经做到了,但是它仅适用于3个子目录。如果我在每个子目录中增加了“ *”的数量,那么spark流只会读取最后两个目录中的文件,而使其余的先前目录保持未读状态。

 df = spark.readStream.text('file:///home/user/stream1.0/*/*/*', wholetext=True)

0 个答案:

没有答案