我正在使用saveAsHadoopFile
JavaPairRDD
将RDD保存为带有snappy压缩的avro文件。是否可以强制将输出文件扩展为snappy
?
答案 0 :(得分:0)
AvroOutputFormat
具有硬编码.avro
扩展名,不允许更改它。
我已经向Avro JIRA上传了patch并进行了适当的更改。
如果你有类似的问题,你必须(现在)只是子类AvroOutputFormat
并在saveAsHadoopFile
方法中使用它。例如在Scala中:
rdd.saveAsHadoopFile("output/path",
classOf[AvroWrapper[GenericRecord]],
classOf[NullWritable],
classOf[YourOutputFormatClassName[GenericRecord]])