应用错误收集

我正在使用WholeTextFiles从不同的文件夹中读取一堆xml文件，其中一些文件夹可能是空的。不幸的是，如果这些文件夹中的任何一个为空，Spark都会引发异常：

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern file:/path/*/*/*.xml matches 0 files

在处理诸如this one之类的常规RDD时，我已经看到了一些解决此问题的方法，但是在使用WholeTextFiles时找不到类似的东西。

我研究了Spark代码，此方法使用了一堆私有类，因此似乎很难更改其行为。有什么想法吗？