java spark parallelize方法参数

时间:2017-11-07 18:51:55

标签: java apache-spark

我正在用java编写测试程序,并希望并行化列表对象。

SparkSession spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("JavaWordCount")
      .getOrCreate();

System.out.println("hello");
List<String> l = new ArrayList<>(5);
l.add("view.txt");
spark.sparkContext().parallelize(l,1,"test");
  

该方法在类型中并行化(Seq,int,ClassTag)   SparkContext不适用于参数(List,int,   字符串)

我不确定第三个参数是什么 - 类Tag

2 个答案:

答案 0 :(得分:1)

通常在使用Java时,您应该更喜欢JavaSparkContext方法:

import org.apache.spark.api.java.JavaSparkContext;

JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

JavaRDD<String> rdd = jsc.parallelize(l, 1);

SparkContext主要用于Scala使用。

答案 1 :(得分:0)

让您想要并行化String列表,这应该是:

ClassTag.apply(String.class)