如何使用pyspark递归获取存储在dbfs文件夹中的excel文件?

时间:2019-07-02 14:01:12

标签: pyspark apache-commons-dbutils

我在dbfs中挂载了一个路径,我需要从给定文件夹中提取excel文件路径,并且同一文件夹包含excel文件或子文件夹包含excel文件。当前代码仅在一个文件夹中而不是子文件夹中提供excel文件。请你帮忙。

files = dbutils.fs.ls('/raw/internal/srange/2018_11_30_00_22_11/')
for file in files:
  if file.path.endswith('xlsx'):
    path = '/dbfs' + file.path[5:]
    print(path)

2 个答案:

答案 0 :(得分:0)

您还应该检查目录

parent.Xrm.Page.getControl("subgrid_abc").refresh();

我没有尝试过代码,因此可能有问题。

答案 1 :(得分:0)

这是我的建议:

for file1 in dbutils.fs.ls("dbfs:/raw/internal/srange/2018_11_30_00_22_11/"):
  if '.xlsx' in file1.name:
    print (file1.name)
  for file2 in dbutils.fs.ls("dbfs:/raw/internal/srange/2018_11_30_00_22_11/"+file1.name):
    if '.xlsx' in file2.name:
      print (file2.name)
    for file3 in dbutils.fs.ls("dbfs:/raw/internal/srange/2018_11_30_00_22_11/"+file1.name+file2.name):
      if '.xlsx' in file3.name:
        print (file3.name)