标签: python pyspark
我需要在spark中加载纯文本RDD。但是由于某些原因,要加载的文件的文件名必须命名为“ xxx.gz”。默认情况下,使用sc.textFile时,此文件被识别为gz文件。如何告诉Spark将文件识别为纯txt文件?
答案 0 :(得分:-1)
您可以使用gzip。
gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)