我们如何获得用于火花作业的总体内存。我无法获得我们可以参考检索相同的确切参数。已经提到了Spark UI但不确定我们可以参考的字段。同样在Ganglia,我们有以下选择: a)内存缓冲区 b)高速缓冲存储器 c)自由记忆 d)共享内存 e)免费交换空间
无法获得与使用的内存相关的任何选项。有没有人对此有所了解。
答案 0 :(得分:1)
如果您坚持使用RDD,您可以通过UI查看它们在内存中的大小。
很难了解中间任务使用了多少内存(例如,用于随机播放)。基本上Spark会根据需要使用尽可能多的内存。这意味着如果您的RDD占用可用资源的50%以上,您的应用程序可能会变慢,因为可用于执行的资源较少。