Executor OutOfMemoryExceptions关于小数据大小与可用内存的关系

时间:2016-12-07 15:31:00

标签: scala apache-spark out-of-memory rdd

给出一个简单的案例类

  case class Rating(user: Int, item: Int, rating: Double)

和两个RDD[Rating]:我们在OOME中获得了两个RDD之间大约700万个条目。

我们已经配置了一个带有30.4GB RAM的单个执行程序。这是每个Rating条目上的 巨大的 开销。我无法证明这一点:Int和Double的原始基元在64位平台上是8个字节。然后将有相同的Java表示和Case类的开销。但是所有人都告诉我们应该仍然是< JVM中单个Rating条目的200个字节。

给定30.4GB RAM和7M对象 - 那么每个对象的表观内存使用量将超过 4KB 。这不算。

以下是单个执行程序显示30.4GB的群集和作业信息:

enter image description here

请注意,我们还通过在kryo中注册Rating类并启用

来启用KryoSerializer序列化
 spark.rdd.compress=true

这些并没有影响到OOME。

RDD表示是否会增加内存使用量?或者问题是大多数执行程序RAM都没有被用于此 - 而OOME由于某些其他原因而发生?

这是由此产生的OOME - 仅在工作几秒钟后发生:

[Dec 06 22:37:32] Generated an implicit feedback dataset with 4501305 ratings for training and 2247105 for test.
Generated dataset in 2644ms
[Stage 0:>                                                          (0 + 1) / 2]Exception in thread "dispatcher-event-loop-5" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Arrays.java:2271)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at java.io.ObjectOutputStream$BlockDataOutputStream.write(ObjectOutputStream.java:1852)
    at java.io.ObjectOutputStream.write(ObjectOutputStream.java:708)
    at java.nio.channels.Channels$WritableByteChannelImpl.write(Channels.java:458)
    at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject$1.apply(SerializableBuffer.scala:49)
    at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject$1.apply(SerializableBuffer.scala:47)
    at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1219)
    at org.apache.spark.util.SerializableBuffer.writeObject(SerializableBuffer.scala:47)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks$1.apply(CoarseGrainedSchedulerBackend.scala:226)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks$1.apply(CoarseGrainedSchedulerBackend.scala:225)
    at scala.collection.immutable.List.foreach(List.scala:318)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.launchTasks(CoarseGrainedSchedulerBackend.scala:225)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.org$apache$spark$scheduler$cluster$CoarseGrainedSchedulerBackend$DriverEndpoint$$makeOffers(CoarseGrainedSchedulerBackend.scala:196)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$receive$1.applyOrElse(CoarseGrainedSchedulerBackend.scala:123)

注意:如果我们使用的数据略少 - 例如如果RDD有500万Rating秒,则作业相对较快地完成(<40秒)并成功完成。

因此,我们不确定哪些因素限制了火花工作者对这种低内存约束的有用性。

1 个答案:

答案 0 :(得分:0)

问题的大部分似乎是DRIVER程序需要的RAM远远超出预期。

驱动程序没有collecttakegroupBy等,只有count。不确定为什么count需要驱动程序上的大量资源。在我们缩小驱动程序详细信息时,将在此处添加更多详细信息。