应用错误收集

分区与Spark内存利用率

时间：2018-09-21 13:01:33

标签： apache-spark partitioning

我对Spark非常陌生。在一个用例中，我试图并行调用多个http api调用，即每个分区一个api调用。我对以下事情感到很困惑：

a）在这种情况下，分区可以帮助我吗？

b）如果我有两个节点群集，每个群集分别具有32 gb的RAM和100 gb的空间，那么哪些因素可以帮助我决定要创建的分区数？

c）作业中手动定义的分区数是将所有节点视为一个整体还是每个节点？

d）如何根据一个api调用溢出的数据来确定分区数？

0 个答案:

没有答案