标签: apache-spark pyspark
阅读tar.gz没问题,但我在最后的o / p中看到很多胡言乱语:(在pyspark上)
lines=sc.textFile("abc.tar.gz") count = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x,1)).reduceByKey(add) print count.collect()
我的o / p有很多x00 \ x00 \任何一个?