<div class="parent">
<div class="child">
<div class="footer">Footer</div>
</div>
<div class="child">
<div class="footer">Footer</div>
</div>
<div class="child">
<div class="footer">Footer-will be in bottom!!</div>
</div>
</div>
我使用此代码读取所有路径中的gz文件
df = sc.textFile("hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/*/part-*.gz")
此路径从00-23开始有24个文件。如何读取文件但是 排除23个文件?
hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/
答案 0 :(得分:0)
解决方法排序,但希望对您有用。
import os
file_list = os.popen('hadoop fs -ls hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/').readlines()
file_list = [x for x in file_list if (x not in ['23'])]
rdd = sc.textFile(file_list.mkString(","))