Maptopair变换在火花中花费了大量时间

时间:2016-05-12 05:23:07

标签: java apache-spark

我已经在apache spark和java 1.7中写了一份工作。这项工作的一个步骤是为每个RDDstring分配一个计数器,然后组合公共字符串和它们的计数器,非常类似于wordcount作业。但是,在maptopair转换中为值1赋值时,需要花费大量时间。我总共有13900673个RDD计数,我在一个节点上运行。我的地图配对代码看起来像 -

JavaPairRDD<String, Integer> somePair=getoldRDD.mapToPair(new PairFunction<String, String, Integer>() {

            @Override
            public Tuple2<String, Integer> call(String arg0) throws Exception {
                return new Tuple2<String, Integer>(arg0, 1);
            }
        });

任何帮助将不胜感激。

0 个答案:

没有答案