我的Spark RDD可以加入多大?

时间:2018-08-17 23:56:45

标签: apache-spark dataframe rdd

我有100个执行者,每个执行者4 GB内存,每个执行者节点10 GB磁盘空间。 Spark中我的RDD或DF联接的最大大小是多少?

我假设我的组合输入的最大大小只能小于(100 * 4 + 100 * 10)GB。就是1400GB。正确吗?

1 个答案:

答案 0 :(得分:0)

1400GB不能为您的最大大小。您必须考虑占用一些空间的临时文件,而需要一些内存和空间才能工作的其他服务。