标签: apache-spark hadoop
我试图找出火花重新分区的详细信息,并且找不到关于火花过程重新分区时hadoop上发生的情况的信息。 不必说我们在hadoop中有文件,每个节点分为4个分区。然后,我们从该文件创建数据框进行一些处理。因此,当执行者将处理数据时,显然会从其节点(执行者正在处理的节点)进行hadoop分区并进行处理。 但是如果我们要在数据帧上进行3分区的重新分区。是否会导致hadoop需要重组其分区(将4个节点的分区通过网络传输并加入其他分区)?