我正在使用WholeTextFiles从不同的文件夹中读取一堆xml文件,其中一些文件夹可能是空的。不幸的是,如果这些文件夹中的任何一个为空,Spark都会引发异常:
org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern file:/path/*/*/*.xml matches 0 files
在处理诸如this one之类的常规RDD时,我已经看到了一些解决此问题的方法,但是在使用WholeTextFiles时找不到类似的东西。
我研究了Spark代码,此方法使用了一堆私有类,因此似乎很难更改其行为。有什么想法吗?