spark如何确定复制一个缓存分区多少次?
spark UI的“存储”选项卡中的存储级别显示为“磁盘序列化1x已复制”,但看起来分区已复制到多个执行器上。我们注意到使用DISK_ONLY
的{{1}}存储级别会发生这种情况。我们正在使用spark 2.3
缓存数据集(磁盘上的大小为468.4 GB)。数据最初分布在101个执行者上(我们共有600个执行者)。当我们在此数据集上运行查询时,磁盘上的大小会增加,执行程序数据的分布数量也会随之增加。我们还注意到,通常在同一节点上的多个执行程序上复制一个块/分区-如果将其存储在磁盘上,为什么不在同一节点上的执行程序之间共享该块/分区?
101 partitions