Question

似乎SparkContext textFile只希望文件出现在给定的目录位置 - 它不是

（a）递归或
（b）甚至支持目录（尝试将目录读取为文件）

有关如何构造递归的任何建议 - 可能比手动创建递归文件列表/下降逻辑更简单吗？

以下是用例：

下的文件

/数据/表/ MY_TABLE

我希望能够通过hdfs读取该父目录下所有目录级别的所有文件。

更新

sc.textFile（）通过（子类）TextInputFormat调用Hadoop FileInputFormat。在逻辑内部存在执行递归目录读取 - 即首先检测条目是否是目录，如果是，则降序：

<!-- language: java -->
     for (FileStatus globStat: matches) {
218          if (globStat.isDir()) {
219            for(FileStatus stat: fs.listStatus(globStat.getPath(),
220                inputFilter)) {
221              result.add(stat);
222            }          
223          } else {
224            result.add(globStat);
225          }
226        }

但是，在调用sc.textFile时，目录条目上存在错误：“not a file”。这种行为令人困惑 - 因为似乎有适当的支持来处理目录。

Answer 1

我正在查看旧版本的FileInputFormat ..

BEFORE 设置递归配置 mapreduce.input.fileinputformat.input.dir.recursive

scala> sc.textFile("dev/*").count
     java.io.IOException: Not a file: file:/shared/sparkup/dev/audit-release/blank_maven_build

默认值为null / not set，其评估为＆＃34; false＆＃34;：

scala> sc.hadoopConfiguration.get("mapreduce.input.fileinputformat.input.dir.recursive")
res1: String = null

<强> AFTER：

现在设置值：

sc.hadoopConfiguration.set("mapreduce.input.fileinputformat.input.dir.recursive","true")

现在重试递归操作：

scala>sc.textFile("dev/*/*").count

..
res5: Long = 3481

So it works.

更新已添加 / ，以便@Ben每次评论完整递归

Answer 2

我发现必须按以下方式设置这些参数：

.set("spark.hive.mapred.supports.subdirectories","true")
.set("spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive","true")

使用sc.textFile以递归方式从子目录中获取文件内容

2 个答案: