火花读取文件不包括模式

时间:2018-08-30 05:57:58

标签: python bash apache-spark hadoop

<div class="parent">
  <div class="child">
    <div class="footer">Footer</div>
  </div>
  <div class="child">
    <div class="footer">Footer</div>
  </div>
  <div class="child">
    <div class="footer">Footer-will be in bottom!!</div>
  </div>
</div>

我使用此代码读取所有路径中的gz文件

df = sc.textFile("hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/*/part-*.gz")

此路径从00-23开始有24个文件。如何读取文件但是 排除23个文件?

    hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/

1 个答案:

答案 0 :(得分:0)

解决方法排序,但希望对您有用。

import os
file_list = os.popen('hadoop fs -ls hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/').readlines()
file_list = [x for x in file_list if (x not in ['23'])]
rdd = sc.textFile(file_list.mkString(","))