标签: apache-spark
我们将如何知道数据在Spark中的集群中均匀分布
答案 0 :(得分:1)
您可以在Spark Web UI中进行检查,以查看正在创建多少个任务以及它们在不同节点中的执行情况。您还可以检查您的执行者是否歪斜并且花时间写。您还可以处理一个实时示例,获取15 GB的文件,然后在4节点16 GB 4核计算机上处理该文件。读取后,重新分区10,并进行一些简单的聚合,然后写入其他目录。您将看到如何在任务节点中创建和执行并行任务。