有什么办法看广播变量的大小吗?

时间:2018-10-09 15:51:03

标签: apache-spark

我将spark.sql.autoBroadcastJoinThreshold的值设置为20 GB的非常高的值。我正在加入一个我确定在该变量下面的表,但是spark正在执行SortMergeJoin。如果我设置了广播提示,那么spark会进行广播加入,并且作业完成得更快。但是,当在生产中为某些大表运行时,我遇到了错误。有没有办法查看正在广播的表的实际大小?我写了这张正在广播到磁盘的表,它只花了32 MB的镶木地板。我试图在Zeppelin中缓存此表并运行table.count()操作,但Spark History Server的“存储”选项卡上未显示任何内容。 spark.util.SizeEstimator似乎也没有为该表提供准确的数字。有什么办法可以知道正在播放的这张桌子的大小吗?

0 个答案:

没有答案