如何使用pyspark递归列出databricks dbutils.fs.ls中文件夹和子文件夹中的文件?

时间:2019-06-21 15:28:44

标签: pyspark apache-commons-dbutils

我在scala中有以下代码,并努力转换为pyspark。请有人帮忙。

def allFiles(path: String) -> Map[String, Long]:
  dbutils.fs.ls(path).map(file => {
    // Work around double encoding bug
    if (file.isDir):
      allFiles(path)
    else:
      Map[String, Long](path -> file.size)
  }).reduce(_ ++ _)

0 个答案:

没有答案