火花堆内存配置和钨

时间:2017-04-10 18:55:14

标签: apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 off-heap

我认为通过整合Tungesten项目,spark会自动使用堆内存。

spark.memory.offheap.size和spark.memory.offheap.enabled是什么?我是否需要手动指定Tungsten的关闭堆内存量?

2 个答案:

答案 0 :(得分:17)

Spark / Tungsten使用编码器/解码器将JVM对象表示为高度专业化的Spark SQL Types对象,然后可以以高性能方式对其进行序列化和操作。内部格式表示非常高效且对GC内存利用率很友好。

因此,即使在默认的堆上模式下运行,Tungsten也可以减轻JVM对象内存布局和GC运行时间的巨大开销。该模式下的钨 在堆上为其内部目的分配对象,并且分配内存块可能很大但是它发生的频率要低得多,并且GC生成过渡平稳地存在。这几乎消除了考虑在堆外移动此内部结构的需要。

在我们开启和关闭此模式的实验中,我们没有看到相当大的运行时间改进。但是你在off-heap模式下得到的是需要仔细设计JVM进程之外的内存分配。当您需要允许并计划除JVM进程配置之外的其他内存块时,这可能会在YARN,Mesos等容器管理器中带来一些困难。

同样在堆外模式下,Tungsten使用sun.misc.Unsafe,这在部署方案中可能不是所希望的甚至可能的(例如,使用限制性的java安全管理器配置)。

当他被问到类似的问题时,我也正在与Josh Rosen分享一个带时间标记的视频会议talk

答案 1 :(得分:0)

spark.memory.offheap.size和spark.memory.offheap.enabled是什么? spark.memory.offHeap.enabled:启用/禁用堆外内存使用的参数。 spark.memory.offHeap.size:用于堆外分配的内存总量(以字节为单位)(来自本机内存)。这不会影响堆内存的使用,也请确保不要超过执行程序的总限制。

我是否需要在此处手动指定钨的堆外存储量? 是。 除了启用OffHeap内存之外,您还需要手动设置其大小以将Off-Heap内存用于spark应用程序。请注意,堆外内存模型仅包括存储内存和执行内存。

下面的图像是堆外内存运行时的抽象概念。

enter image description here

•如果启用了堆内存,则执行器中将同时有堆内存和堆内存。

•执行器的存储内存=堆上的内存+堆上的内存

•执行器的执行内存=堆上执行内存+堆外执行内存