我们将如何得知数据在Spark中的整个集群中均匀分布?

时间:2019-01-10 10:08:30

标签: apache-spark

我们将如何知道数据在Spark中的集群中均匀分布

1 个答案:

答案 0 :(得分:1)

您可以在Spark Web UI中进行检查,以查看正在创建多少个任务以及它们在不同节点中的执行情况。您还可以检查您的执行者是否歪斜并且花时间写。您还可以处理一个实时示例,获取15 GB的文件,然后在4节点16 GB 4核计算机上处​​理该文件。读取后,重新分区10,并进行一些简单的聚合,然后写入其他目录。您将看到如何在任务节点中创建和执行并行任务。