我试图了解Spark 2.1.0如何在节点上分配内存。
假设我正在启动一个本地PySpark REPL,为它分配2GB的内存:
$ pyspark --conf spark.driver.memory=2g
Spark UI告诉我们为存储内存分配了 956.6 MB :
我不明白如何获得这个数字,这是我的思考过程:
2048 MB
,(2048 MB - 300 MB) * 0.6 = 1048.8 MB
用于执行和存储区域(统一),1048.8 MB * 0.5 = 524.4 MB
应保留为免疫存储区域 那么,Spark中956.6 MB的值是如何计算的呢?
答案 0 :(得分:14)
您似乎正在使用local
模式(一个驱动程序也充当唯一的执行程序),但它也应该适用于其他集群模式。
启用BlockManagerMasterEndpoint
的INFO日志记录级别,以了解Spark看到您在命令行上设置的属性的内存量(spark.driver.memory
)。
log4j.logger.org.apache.spark.storage.BlockManagerMasterEndpoint=INFO
当您开始spark-shell --conf spark.driver.memory=2g
时,您会看到以下内容:
$ ./bin/spark-shell --conf spark.driver.memory=2g
...
17/05/07 15:20:50 INFO BlockManagerMasterEndpoint: Registering block manager 192.168.1.8:57177 with 912.3 MB RAM, BlockManagerId(driver, 192.168.1.8, 57177, None)
正如您所看到的,可用内存是 912.3 ,其计算方法如下(参见UnifiedMemoryManager.getMaxMemory):
// local mode with --conf spark.driver.memory=2g
scala> sc.getConf.getSizeAsBytes("spark.driver.memory")
res0: Long = 2147483648
scala> val systemMemory = Runtime.getRuntime.maxMemory
// fixed amount of memory for non-storage, non-execution purposes
val reservedMemory = 300 * 1024 * 1024
// minimum system memory required
val minSystemMemory = (reservedMemory * 1.5).ceil.toLong
val usableMemory = systemMemory - reservedMemory
val memoryFraction = sc.getConf.getDouble("spark.memory.fraction", 0.6)
scala> val maxMemory = (usableMemory * memoryFraction).toLong
maxMemory: Long = 956615884
import org.apache.spark.network.util.JavaUtils
scala> JavaUtils.byteStringAsMb(maxMemory + "b")
res1: Long = 912
让我们回顾一下web UI如何计算内存(这与上面的内容不同,应该只显示值!)。这是令人惊讶的部分。
存储内存在Web UI中的显示方式由utils.js中的自定义JavaScript函数formatBytes
控制(映射到Scala)如下所示:
def formatBytes(bytes: Double) = {
val k = 1000
val i = math.floor(math.log(bytes) / math.log(k))
val maxMemoryWebUI = bytes / math.pow(k, i)
f"$maxMemoryWebUI%1.1f"
}
scala> println(formatBytes(maxMemory))
956.6
<强> 956.6 强>!这正是Web UI显示的内容,与Spark的UnifiedMemoryManager
认为可用内存完全不同。 相当令人惊讶,不是吗?
我认为这是一个错误,并将其填充为SPARK-20691。