我使用的是Spark 1.6.0。和DataFrame API用于读取分区的镶木地板数据。
我想知道将使用多少分区。
以下是我的数据的一些数据:
Spark似乎使用了2182个分区,因为当我执行<button type="button" ng-click="saveGeneralParams();" class="apply bt" ng-disabled="validate()">{{'APPLY_LABEL' | translate}}</button>
时,该作业被分成2182个任务。
count
这是对的吗?在所有情况下?
如果是,那么关于数据量是否太高(即我应该使用df.rdd.partitions.length
来减少它)?
答案 0 :(得分:1)
是的,您可以使用重新分区方法来减少任务数量,使其与可用资源保持平衡。你还需要定义每个节点的执行者数量,没有。提交应用程序时每个节点的节点和内存,以便任务并行执行并利用最大的资源。