分区与Spark内存利用率

时间:2018-09-21 13:01:33

标签: apache-spark partitioning

我对Spark非常陌生。在一个用例中,我试图并行调用多个http api调用,即每个分区一个api调用。我对以下事情感到很困惑:

a)在这种情况下,分区可以帮助我吗?

b)如果我有两个节点群集,每个群集分别具有32 gb的RAM和100 gb的空间,那么哪些因素可以帮助我决定要创建的分区数?

c)作业中手动定义的分区数是将所有节点视为一个整体还是每个节点?

d)如何根据一个api调用溢出的数据来确定分区数?

0 个答案:

没有答案