应用错误收集

我试图找出火花重新分区的详细信息，并且找不到关于火花过程重新分区时hadoop上发生的情况的信息。不必说我们在hadoop中有文件，每个节点分为4个分区。然后，我们从该文件创建数据框进行一些处理。因此，当执行者将处理数据时，显然会从其节点（执行者正在处理的节点）进行hadoop分区并进行处理。但是如果我们要在数据帧上进行3分区的重新分区。是否会导致hadoop需要重组其分区（将4个节点的分区通过网络传输并加入其他分区）？

Spark分区如何对Hadoop分区产生影响？

0 个答案: