saveAsHadoopFile - 文件扩展名

时间:2016-06-14 07:45:41

标签: java scala apache-spark snappy

我正在使用saveAsHadoopFile JavaPairRDD将RDD保存为带有snappy压缩的avro文件。是否可以强制将输出文件扩展为snappy

1 个答案:

答案 0 :(得分:0)

AvroOutputFormat具有硬编码.avro扩展名,不允许更改它。 我已经向Avro JIRA上传了patch并进行了适当的更改。 如果你有类似的问题,你必须(现在)只是子类AvroOutputFormat并在saveAsHadoopFile方法中使用它。例如在Scala中:

rdd.saveAsHadoopFile("output/path", 
    classOf[AvroWrapper[GenericRecord]], 
    classOf[NullWritable], 
    classOf[YourOutputFormatClassName[GenericRecord]])