我正在使用apache spark中的并行化集合创建RDD。但是当我在spark上下文中调用parallelize方法时,该方法需要多个参数。尽管该方法在任何地方都被记录为仅采用单个列表参数。我无法理解附加的两个参数是什么,因为spark文档也没有提供清楚的理解。以下是我传递单个参数时收到的消息。
The method parallelize(Seq<T>, int, ClassTag<T>) in the type SparkContext is not applicable for the arguments (List<Integer>)
以下是我的代码: -
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);
答案 0 :(得分:4)
你应该在Java中使用JavaSparkContext(而不是scala),然后你就可以对List [T]进行并行化了解http://spark.apache.org/docs/0.6.0/api/core/spark/api/java/JavaSparkContext.html