标签: apache-spark dataframe rdd
我有100个执行者,每个执行者4 GB内存,每个执行者节点10 GB磁盘空间。 Spark中我的RDD或DF联接的最大大小是多少?
我假设我的组合输入的最大大小只能小于(100 * 4 + 100 * 10)GB。就是1400GB。正确吗?
答案 0 :(得分:0)
1400GB不能为您的最大大小。您必须考虑占用一些空间的临时文件,而需要一些内存和空间才能工作的其他服务。