我遇到了一个问题,YARN因超出内存限制而杀死了我的容器:
Container killed by YARN for exceeding memory limits. physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.
我有20个m3.2xlarge节点,所以他们有:
cores: 8
memory: 30
storage: 200 gb ebs
我的应用程序的要点是,我有几个10万资产,我有去年每小时生成的历史数据,总数据集大小为2TB未压缩。我需要使用此历史数据为每个资产生成预测。我的设置是我首先使用s3distcp将存储为索引的lzo文件的数据移动到hdfs。然后我将数据拉入并传递给sparkSql来处理json:
val files = sc.newAPIHadoopFile("hdfs:///local/*",
classOf[com.hadoop.mapreduce.LzoTextInputFormat],classOf[org.apache.hadoop.io.LongWritable],
classOf[org.apache.hadoop.io.Text],conf)
val lzoRDD = files.map(_._2.toString)
val data = sqlContext.read.json(lzoRDD)
然后我使用groupBy按资产对历史数据进行分组,创建(assetId,timestamp,sparkSqlRow)元组。我认为这种数据结构可以在生成每个资产的预测时更好地进行内存操作。
val p = data.map(asset => (asset.getAs[String]("assetId"),asset.getAs[Long]("timestamp"),asset)).groupBy(_._1)
然后我使用foreach迭代每一行,计算预测,最后将预测作为json文件写回到s3。
p.foreach{ asset =>
(1 to dateTimeRange.toStandardHours.getHours).foreach { hour =>
// determine the hour from the previous year
val hourFromPreviousYear = (currentHour + hour.hour) - timeRange
// convert to seconds
val timeToCompare = hourFromPreviousYear.getMillis
val al = asset._2.toList
println(s"Working on asset ${asset._1} for hour $hour with time-to-compare: $timeToCompare")
// calculate the year over year average for the asset
val yoy = calculateYOYforAsset2(al, currentHour, asset._1)
// get the historical data for the asset from the previous year
val pa = asset._2.filter(_._2 == timeToCompare)
.map(row => calculateForecast(yoy, row._3, asset._1, (currentHour + hour.hour).getMillis))
.foreach(json => writeToS3(json, asset._1, (currentHour + hour.hour).getMillis))
}
}
任何建议/帮助表示赞赏!
答案 0 :(得分:0)
它不是你的代码。不要担心foreach
不会同时运行所有这些lambdas。问题是Spark的默认值spark.yarn.executor.memoryOverhead
(或最近在2.3+中重命名为spark.executor.memoryOverhead
)过于保守,导致执行者在负载下被杀死。
解决方案是(如错误消息所示)增加该值。如果要为每个执行程序请求大量内存,我会先将其设置为1GB(设置为1024
)或更多。目标是在没有任何执行者被杀的情况下运行工作。
或者,如果您控制群集,则可以通过在yarn.nodemanager.pmem-check-enabled
yarn.nodemanager.vmem-check-enabled
和false
设置为yarn-site.xml
来禁用YARN内存强制执行