应用错误收集

从Spark读取镶木地板数据时有多少分区

时间：2016-11-14 11:55:19

标签： apache-spark parquet

我使用的是Spark 1.6.0。和DataFrame API用于读取分区的镶木地板数据。

我想知道将使用多少分区。

以下是我的数据的一些数据：

2182个文件
196分区
2 GB

Spark似乎使用了2182个分区，因为当我执行<button type="button" ng-click="saveGeneralParams();" class="apply bt" ng-disabled="validate()">{{'APPLY_LABEL' | translate}}</button>时，该作业被分成2182个任务。

count

似乎证实了这一点

这是对的吗？在所有情况下？

如果是，那么关于数据量是否太高（即我应该使用df.rdd.partitions.length来减少它）？

1 个答案:

答案 0 :(得分：1)

是的，您可以使用重新分区方法来减少任务数量，使其与可用资源保持平衡。你还需要定义每个节点的执行者数量，没有。提交应用程序时每个节点的节点和内存，以便任务并行执行并利用最大的资源。