如何拆分文本Gzip文件以进行Spark处理

时间:2017-10-09 11:44:35

标签: apache-spark

我们从上游收到10 GB文本gzip文件。使用spark数据帧读取文件时,只有1个vcore被用于1个文件。

是否可以将文件拆分为多个文件然后使用Spark Dataframe,因此多个vcore可以提高gzip压缩文件的读取性能? 是否可以使用zcat和csplit创建多个文件,是否存在数据丢失或任何其他已知问题?

1 个答案:

答案 0 :(得分:1)

Gzipped文件无法分区。如果您需要在压缩文件中进行分区,则需要使用snappy格式。

或者您需要使用重新分区显式分区文件。

NaN