在spark

时间:2016-02-21 04:35:48

标签: apache-spark apache-spark-mllib apache-spark-ml

我对spark非常陌生,我想以编程方式从标记点创建JavaRDD,而无需从文件中读取输入。假设我创建了几个Labeledpoints,如下所示,

 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 5.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0));
 LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(1.0, 7.0, 3.0));

然后我想用这些向量创建一个JavaRDD。我怎么能这样做。

1 个答案:

答案 0 :(得分:4)

检查this section of Apache spark documentation。您可以使用parallelize函数创建rdd。

List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);