标签: apache-spark partitioning
我对Spark非常陌生。在一个用例中,我试图并行调用多个http api调用,即每个分区一个api调用。我对以下事情感到很困惑:
a)在这种情况下,分区可以帮助我吗?
b)如果我有两个节点群集,每个群集分别具有32 gb的RAM和100 gb的空间,那么哪些因素可以帮助我决定要创建的分区数?
c)作业中手动定义的分区数是将所有节点视为一个整体还是每个节点?
d)如何根据一个api调用溢出的数据来确定分区数?