任何Spark作业的内存利用率

时间:2017-03-08 07:13:52

标签: apache-spark memory-management

我在Spark中开发了一个算法,我需要在不同的输入数据大小的整个执行过程中报告算法的内存消耗。具体来说,我需要在每个节点或每个执行程序执行期间执行Spark作业的峰值内存利用率和峰值IO使用率。我的问题是

  1. Spark UI在存储选项卡中提供RDD大小。添加所有RDD大小是否足以满足内存消耗,或者我必须查看其他任何内容。
  2. 如果我必须将我的算法与其他算法进行比较,如何检查内存消耗。因为在那种情况下我无法访问代码。
  3. 如何计算峰值IO使用率。在这种情况下,Shuffle读/写是否有帮助。

0 个答案:

没有答案