应用错误收集

默认情况下，spark会将您的数据集划分为多个分区。在初始阶段执行的任何操作也将得到处理。

但是，有时您可能需要将所有数据放在一个分区中，以便根据您的功能要求进行更好的分组。然后分区号将有所帮助。在此阶段，您还应验证执行程序的内存设置，因为现在所有数据都位于一个分区。

另一种情况是，当您执行过滤时。在内部执行过滤器时，将保留相同的分区，即使过滤掉了大多数记录。这导致空心分区。所以在这种情况下，你可以合并。这个方法需要numOfPartitions。

还有rePartition（）方法，它将numOfPartitions作为输入。这涉及重新洗牌。你可以找到它们http://docs.aws.amazon.com/powershell/latest/reference/items/Auto_Scaling_cmdlets.html

所以你可以根据需要选择