Question

这是情况的图片：

我的代码：

rdd = spark.read.format("avro").load(paths).rdd.repartition(160).flatMap(parse_source_data).repartition(20)

parse_source_data是昂贵的Python函数，可映射到所有数据。我看到了160个预期的任务。 Spark声称有80个同时运行，符合预期。但实际上，似乎所有任务都由两个执行者来运行。

有人有什么想法吗？

Answer 1

我正在工人上创建一个SparkContext。这使工人无法从事实际工作。