Question

我们从上游收到10 GB文本gzip文件。使用spark数据帧读取文件时，只有1个vcore被用于1个文件。

是否可以将文件拆分为多个文件然后使用Spark Dataframe，因此多个vcore可以提高gzip压缩文件的读取性能？是否可以使用zcat和csplit创建多个文件，是否存在数据丢失或任何其他已知问题？

Answer 1

Gzipped文件无法分区。如果您需要在压缩文件中进行分区，则需要使用snappy格式。

或者您需要使用重新分区显式分区文件。

NaN