应用错误收集

我正面临https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-8437，但在使用glob时。当阅读目录时，大约有50,000个文件大小达到1.5mb，如：

在真正开始处理任何工作之前，火花会持续大约7分钟。

spark.sparkContext.binaryFiles("/path/to/folder/*", parallelism)

我能做些什么来加快速度吗？实际上，https://issues.apache.org/jira/browse/SPARK-8437描述了同样的问题但没有通配符。第一个链接提到它可能不是火花问题，而是与Hadoop apis有关。