假设我有以下Java代码
SparkConf sparkConf = new SparkConf().setAppName("myApp");
JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);`
JavaRDD<A> firstRDD = sparkContext.parallelize(B, 2);
JavaRDD<A> secondRDD = firstRDD.map(runSomethingAndReturnSomething());
A objectA = secondRDD.collect();
doSomethingWithA(objectA)
我想在集群模式下运行代码,所以我使用spark-submit,启动一个主服务器和一个从服务器。
据我了解(如果我错了,请纠正我),这种情况应该发生:
问题在于,基本上收集是在从属节点而不是在主节点中完成的,为什么会这样?