使用java将输入拆分并存储在Apache spark中的变量中

时间:2015-02-04 16:58:08

标签: java hadoop apache-spark spark-streaming

我有两个文件作为输入,第一个文件将有角色编号和subject1标记,第二个文件将有角色编号和subject2标记,第一个文件将进入火花流,第二个文件将在我的hdfs,如何我可以像使用密钥,值对一样分割文件并提取值并使用java in spark将其存储在变量中,我尝试过使用javapairrdd在变量中提取和存储为整数很困难。在此先感谢您的帮助。

JavaRDD<String> sub1MarksRDD = sc.textFile("/user/ubuntu/sub1Marks.dat");
List<String> ccList = new ArrayList<String>();
ccList = sub1MarksRDD.collect();

JavaRDD<String> sub2MarksRDD = sc.textFile("/user/ubuntu/sub2marks.dat");

JavaPairRDD<String, Integer> result = sub1MarksRDD.mapToPair(
            new PairFunction<String,String,Integer>() {

                public Tuple2<String, Integer> call(String w) {
                      return new Tuple2<String, Integer>(w, 1);
                }
            }
    );

我们应该如何创建一对rdd来映射sub1Marks.dat中的角色no,marks1和sub2Marks.dat中的数据。如何根据角色no提取标记字段并将其存储到变量中。

0 个答案:

没有答案