如何在apache spark中执行Sort JavaPairRDD

时间:2016-03-10 07:18:14

标签: java apache-spark

我从日志文件中获取IP地址并对其执行计数,现在我想根据其计数值对JavaPairRDD进行排序。 你可以参考下面的代码。

JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {

        @Override
        public Integer call(Integer v1, Integer v2) throws Exception {
            // TODO Auto-generated method stub
            return v1 + v2;
        }
    });

上面的JavaPairRDD将返回IP计数,现在我想对它进行排序.. 例如输出将是这样的

  

(172.16.0.0,125)
(192.168.0.0,12)
(127.168.0.44,92)

第二个值是特定ip的计数。

1 个答案:

答案 0 :(得分:3)

Spark不支持基于该值的排序。作为一种解决方法,您可以交换键和值对,然后根据键进行排序。

检查一下:https://issues.apache.org/jira/browse/SPARK-3655

使用此代码交换密钥和值:

JavaPairRDD<Integer, String> swapped = counts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
           @Override
           public Tuple2<Integer, String> call(Tuple2<String, Integer> item) throws Exception {
               return item.swap();
           }

        });