从Spark读取镶木地板数据时有多少分区

时间:2016-11-14 11:55:19

标签: apache-spark parquet

我使用的是Spark 1.6.0。和DataFrame API用于读取分区的镶木地板数据。

我想知道将使用多少分区。

以下是我的数据的一些数据:

  • 2182个文件
  • 196分区
  • 2 GB

Spark似乎使用了2182个分区,因为当我执行<button type="button" ng-click="saveGeneralParams();" class="apply bt" ng-disabled="validate()">{{'APPLY_LABEL' | translate}}</button> 时,该作业被分成2182个任务。

count

似乎证实了这一点

这是对的吗?在所有情况下?

如果是,那么关于数据量是否太高(即我应该使用df.rdd.partitions.length来减少它)?

1 个答案:

答案 0 :(得分:1)

是的,您可以使用重新分区方法来减少任务数量,使其与可用资源保持平衡。你还需要定义每个节点的执行者数量,没有。提交应用程序时每个节点的节点和内存,以便任务并行执行并利用最大的资源。