我正面临https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-8437,但在使用glob时。当阅读目录时,大约有50,000个文件大小达到1.5mb,如:
在真正开始处理任何工作之前,火花会持续大约7分钟。spark.sparkContext.binaryFiles("/path/to/folder/*", parallelism)
我能做些什么来加快速度吗? 实际上,https://issues.apache.org/jira/browse/SPARK-8437描述了同样的问题但没有通配符。 第一个链接提到它可能不是火花问题,而是与Hadoop apis有关。