Question

spark如何确定复制一个缓存分区多少次？

spark UI的“存储”选项卡中的存储级别显示为“磁盘序列化1x已复制”，但看起来分区已复制到多个执行器上。我们注意到使用DISK_ONLY的{{1}}存储级别会发生这种情况。我们正在使用spark 2.3缓存数据集（磁盘上的大小为468.4 GB）。数据最初分布在101个执行者上（我们共有600个执行者）。当我们在此数据集上运行查询时，磁盘上的大小会增加，执行程序数据的分布数量也会随之增加。我们还注意到，通常在同一节点上的多个执行程序上复制一个块/分区-如果将其存储在磁盘上，为什么不在同一节点上的执行程序之间共享该块/分区？

101 partitions

初始负载
在缓存数据集上运行查询之后
一个执行程序可以在其中缓存2个分区。另外，请注意，在随附的屏幕截图中，RDD多次缓存。
101位执行者的数据分配

Spark DataFrame缓存不断增长

0 个答案: