直接在Pyspark中阅读gzip文件的问题

时间:2015-06-17 07:12:55

标签: apache-spark pyspark

阅读tar.gz没问题,但我在最后的o / p中看到很多胡言乱语:(在pyspark上)

lines=sc.textFile("abc.tar.gz")
count = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x,1)).reduceByKey(add)
print count.collect()

我的o / p有很多x00 \ x00 \任何一个?

0 个答案:

没有答案