我从日志文件中获取IP地址并对其执行计数,现在我想根据其计数值对JavaPairRDD进行排序。 你可以参考下面的代码。
JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
// TODO Auto-generated method stub
return v1 + v2;
}
});
上面的JavaPairRDD将返回IP计数,现在我想对它进行排序.. 例如输出将是这样的
(172.16.0.0,125)
(192.168.0.0,12)
(127.168.0.44,92)
第二个值是特定ip的计数。
答案 0 :(得分:3)
Spark不支持基于该值的排序。作为一种解决方法,您可以交换键和值对,然后根据键进行排序。
检查一下:https://issues.apache.org/jira/browse/SPARK-3655
使用此代码交换密钥和值:
JavaPairRDD<Integer, String> swapped = counts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
@Override
public Tuple2<Integer, String> call(Tuple2<String, Integer> item) throws Exception {
return item.swap();
}
});