Java Spark如何保存JavaPairRDD <hashset <string>,HashMap <string,double =“”>&gt;提交?

时间:2018-04-27 04:47:41

标签: java apache-spark hadoop java-pair-rdd

在一些复杂的聚合之后,我得到了这个“JavaPairRDD<HashSet<String>, HashMap<String, Double>>”RDD,想要将结果保存到文件中。我相信saveAsHadoopFile是一个很好的API,但是我无法填写saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec)的参数。有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

您可以使用以下功能,稍后将其解析为所需的结果。

rdd.saveAsTextFile ("hdfs:///complete_path_to_hdfs_file/");

但是如果你想使用saveAsHadoopFile API,那么可以使用以下方法。

saveAsHadoopFile(complete_path_to_file, HashSet.class, HashMap.class, TextOutputFormat.class)

您也可以使用HadoopOutputFormat.class作为最后一个参数

有关详细信息,请参阅此链接 HadoopFile