我们正在使用Apache Spark 2.1.1生成一些日常报告。这些报告是根据一些日常数据生成的,我们会在分别运行每个单元的报告并将它们组合在一起之前保留这些数据。以下是我们正在做的简化版本:
def unitReport(d: Date, df: DataFrame, u: String): DataFrame = ... // Builds a report based on unit `u`
val date: Date = ... // Date to run the report
val dailyData: DataFrame = someDailyData.persist() // Daily data
val units: Seq[String] = Seq("Unit_A", "Unit_B", "Unit_C")
val report: DataFrame =
units.map(unitReport(date, dailyData, _)) // Report for each unit.
.reduce((a, b) => a.union(b)) // Join all the units together.
在此之后,我们将报告作为csv写入HDFS,将各部分连接在一起,然后通过电子邮件发送报告。
我们已经开始遇到大约50个单位的最大报告的问题。我们不断提高最大结果大小(现在为10G)以及驱动内存并继续打击它。这里令人困惑的事情是:a)我们没有将结果反馈给驱动程序,b)最终输出的报告只占用了CSV格式的145k和1298行,为什么我们传递8G的maxResultSize
?我们觉得有些事情我们不了解Spark如何管理内存,resultSize
中包含的内容,以及发送回驱动程序的内容,但很难找到任何解释或文档。以下是报告最后阶段的片段,就在它开始耗尽内存之前,让您了解报告的复杂性:
[Stage 2297:===========================================> (4822 + 412) / 5316]
[Stage 2297:===========================================> (4848 + 394) / 5316]
[Stage 2297:============================================> (4877 + 370) / 5316]
[Stage 2297:============================================> (4909 + 343) / 5316]
[Stage 2297:============================================> (4944 + 311) / 5316]
[Stage 2297:============================================> (4964 + 293) / 5316]
[Stage 2297:============================================> (4980 + 278) / 5316]
[Stage 2297:=============================================> (4996 + 266) / 5316]
[Stage 2297:=============================================> (5018 + 246) / 5316]
我们通过以下代码找到了我们认为类似的记忆效应:
import org.apache.spark.mllib.random.RandomRDDs._
val df = normalRDD(sc, 1000000000L, 1000000).toDF()
df.filter($"value" > 0.9).count()
虽然这段代码只返回一个简单的计数,但是当我们最终在驱动程序上遇到这个内存不足错误时:
java.lang.OutOfMemoryError: GC overhead limit exceeded
at scala.collection.mutable.ListBuffer.$plus$eq(ListBuffer.scala:174)
at scala.collection.mutable.ListBuffer.$plus$eq(ListBuffer.scala:45)
at scala.collection.generic.Growable$class.loop$1(Growable.scala:53)
at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:57)
当我们监控驱动程序上的日志时,我们发现它正在进行完整的垃圾收集,整个内存逐渐增加:
2.095: [GC [PSYoungGen: 64512K->8399K(74752K)] 64512K->8407K(244224K), 0.0289150 secs] [Times: user=0.05 sys=0.02, real=0.02 secs]
3.989: [GC [PSYoungGen: 72911K->10235K(139264K)] 72919K->10709K(308736K), 0.0257280 secs] [Times: user=0.04 sys=0.02, real=0.02 secs]
5.936: [GC [PSYoungGen: 139259K->10231K(139264K)] 139733K->67362K(308736K), 0.0741340 secs] [Times: user=0.40 sys=0.12, real=0.07 secs]
10.842: [GC [PSYoungGen: 139255K->10231K(268288K)] 196386K->86311K(437760K), 0.0678030 secs] [Times: user=0.28 sys=0.07, real=0.07 secs]
19.282: [GC [PSYoungGen: 268279K->10236K(268288K)] 344359K->122829K(437760K), 0.0642890 secs] [Times: user=0.32 sys=0.10, real=0.06 secs]
22.981: [GC [PSYoungGen: 268284K->30989K(289792K)] 380877K->143582K(459264K), 0.0811960 secs] [Times: user=0.20 sys=0.07, real=0.08 secs]
有没有人有任何想法发生了什么?任何对文档的解释或指示都将不胜感激。
答案 0 :(得分:4)
很难确定,但我猜这与减少的结果DataFrame中的分区总数有关,并且由于a.union(b)
中的分区数是a
和b
分区计数的总和,因此该数字可能会越大。
虽然数据未存储/发送到驱动程序,但驱动程序会管理代表所有分区和任务分配的对象对每一个人;如果您的DataFrame最终有数百万个分区,那么Driver将创建(然后使用GC收集)数百万个对象。
所以,尝试更改union操作以包含coalesce
操作以限制分区总数:
val MaxParts = dailyData.rdd.partitions.length * 2 // or anything, but something reasonable
val report: DataFrame =
units.map(unitReport(date, dailyData, _))
.reduce((a, b) => a.union(b).coalesce(MaxParts))