我对spark非常陌生,我想以编程方式从标记点创建JavaRDD,而无需从文件中读取输入。假设我创建了几个Labeledpoints,如下所示,
LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 5.0, 3.0));
LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 7.0, 3.0));
然后我想用这些向量创建一个JavaRDD。我怎么能这样做。
答案 0 :(得分:4)
检查this section of Apache spark documentation。您可以使用parallelize函数创建rdd。
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);