(PY)Spark:如何读取扩展名为“ .gz”的“ .txt”文件

时间:2019-06-24 10:40:04

标签: python pyspark

我需要在spark中加载纯文本RDD。但是由于某些原因,要加载的文件的文件名必须命名为“ xxx.gz”。默认情况下,使用sc.textFile时,此文件被识别为gz文件。如何告诉Spark将文件识别为纯txt文件?

1 个答案:

答案 0 :(得分:-1)

您可以使用gzip

gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)