使用Spark WholeTextFiles读取时忽略空文件夹

时间:2018-07-19 20:16:38

标签: apache-spark rdd

我正在使用WholeTextFiles从不同的文件夹中读取一堆xml文件,其中一些文件夹可能是空的。不幸的是,如果这些文件夹中的任何一个为空,Spark都会引发异常:

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern file:/path/*/*/*.xml matches 0 files

在处理诸如this one之类的常规RDD时,我已经看到了一些解决此问题的方法,但是在使用WholeTextFiles时找不到类似的东西。

我研究了Spark代码,此方法使用了一堆私有类,因此似乎很难更改其行为。有什么想法吗?

0 个答案:

没有答案