如何使用mapPartitions函数将Rdd转换为数据集

时间:2019-10-06 08:06:09

标签: java apache-spark

我正在尝试将Java Spark RDD转换为数据集。

根据Spark文档。 mapPartitions比地图功能更快。

这将有助于提高spark。

的性能。

1 个答案:

答案 0 :(得分:0)

下面是Java代码。

JavaRDD<UserData> UserRowRDD = userSuccessRDD.mapPartitions(new FlatMapFunction<Iterator<String>, UserData>() {

            @Override
            public Iterator call(Iterator<String> input) throws Exception {
                List<UserData> result = new ArrayList<>();
                while (input.hasNext()) {
                    result.add(Util.getEnrichedUser(UserHeader, input.next()));
                }
                return result.iterator();
            }
        });

public static UserData getEnrichedUser(String[] header, String rddString) {

                    String[] parts = rddString.split("\\^");
                    UserData output = new UserData();
                    for (int i = 0; i < parts.length; i++) {
                        try {
                            BeanUtils.setProperty(output, header[i], parts[i]);
                        } catch (IllegalAccessException | InvocationTargetException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        }
                    }
                    return output;

    }