标签: apache-spark pyspark apache-spark-sql
我有一个文件列表(数百万个小文件), 我希望将它们分块处理(一次100K), 这些文件位于不同的路径中。 我想到使用woleTextFile,但它仅获得目录名称。 全部文本文件= sc.wholeTextFiles(“ logs / data1”,“ log2”,..) 我之所以要分批处理,是因为小文件中有100万个文件 在S3。在整个存储桶上运行sc.wholeTextFile需要花费数小时才能完成。 有任何想法吗?