我正在用java编写测试程序,并希望并行化列表对象。
SparkSession spark = SparkSession
.builder()
.master("local[*]")
.appName("JavaWordCount")
.getOrCreate();
System.out.println("hello");
List<String> l = new ArrayList<>(5);
l.add("view.txt");
spark.sparkContext().parallelize(l,1,"test");
该方法在类型中并行化(Seq,int,ClassTag) SparkContext不适用于参数(List,int, 字符串)
我不确定第三个参数是什么 - 类Tag
答案 0 :(得分:1)
通常在使用Java时,您应该更喜欢JavaSparkContext
方法:
import org.apache.spark.api.java.JavaSparkContext;
JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
JavaRDD<String> rdd = jsc.parallelize(l, 1);
SparkContext
主要用于Scala使用。
答案 1 :(得分:0)
让您想要并行化String
列表,这应该是:
ClassTag.apply(String.class)