Spark不压缩json输出

时间:2016-10-04 08:59:20

标签: apache-spark

我已将以下内容添加到我的脚本中:

val conf = new SparkConf
conf.set("spark.hadoop.mapred.output.compress", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
conf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")

我写这样的数据df.write.json("out")。但是,我得到的只是输出中的.json文件,而不是预期的.json.gz。这里有什么问题?

1 个答案:

答案 0 :(得分:1)

你可以试试这个:

import org.apache.hadoop.io.compress.GzipCodec

val df = Seq((2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)).toDF("year", "month", "title", "rating")
df.toJSON.rdd.saveAsTextFile("/tmp/jsonRecords", classOf[GzipCodec])