Question

我有一个Apache spark集群，其中包含一个主节点和三个工作节点。工作节点每个都有32个内核和124G内存。我还在HDFS中获得了大约6.5亿条文本记录的数据集。这个数据集是许多读入的序列化RDD：

import org.apache.spark.mllib.linalg.{Vector, Vectors, SparseVector}
val vectors = sc.objectFile[(String, SparseVector)]("hdfs://mn:8020/data/*")

我想提取一百万条记录的样本来做一些分析，所以我想我试试val sample = vectors.takeSample(false, 10000, 0)。但是，最终会出现此错误消息：

 15/08/25 09:48:27 ERROR Utils: Uncaught exception in thread task-result-getter-3
java.lang.OutOfMemoryError: Java heap space
        at org.apache.spark.scheduler.DirectTaskResult$$anonfun$readExternal$1.apply$mcV$sp(TaskResult.scala:64)
        at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1239)
        at org.apache.spark.scheduler.DirectTaskResult.readExternal(TaskResult.scala:61)
        at java.io.ObjectInputStream.readExternalData(ObjectInputStream.java:1837)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1796)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
        at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
        at org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:69)
        at org.apache.spark.serializer.JavaSerializerInstance.deserialize(JavaSerializer.scala:89)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply$mcV$sp(TaskResultGetter.scala:79)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply(TaskResultGetter.scala:51)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$run$1.apply(TaskResultGetter.scala:51)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1772)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2.run(TaskResultGetter.scala:50)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)
Exception in thread "task-result-getter-3" java.lang.OutOfMemoryError: Java heap space
        at org.apache.spark.scheduler.DirectTaskResult$$anonfun$readExternal$1.apply$mcV$sp(TaskResult.scala:64)
        at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1239)
        at org.apache.spark.scheduler.DirectTaskResult.readExternal(TaskResult.scala:61)
        at java.io.ObjectInputStream.readExternalData(ObjectInputStream.java:1837)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1796)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
        at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
        at org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:69)
        at org.apache.spark.serializer.JavaSerializerInstance.deserialize(JavaSerializer.scala:89)
        at org.apache.spark.scheduler.TaskResultGetter$$anon$2$$anonfun$r

我知道我的堆空间已经用完了（我觉得在驱动程序上？），这是有道理的。执行hadoop fs -du -s /path/to/data，数据集在磁盘上占用2575千兆字节（但只有大约850 GB）。

所以，我的问题是，我该怎么做才能提取1000000条记录的样本（我后来计划将其序列化为磁盘）？我知道我可以用较小的样本量进行takeSample()并稍后聚合它们，但我认为我没有设置正确的配置或做错了什么，这使我无法按照我的方式做到这一点＃＆＃ 39; d喜欢。

Answer 1

使用大数据时，在驱动程序节点收集中间结果很少是个好主意。相反，保持数据在群集中的分布几乎总是更好。对于您想要采用的样本也是如此。

如果要对数据集中的1000000个元素进行采样，然后将其写入磁盘，那么为什么不在不将其收集到驱动程序的情况下将样本写入磁盘呢？以下代码段应该完全按照

进行操作

val sample = vectors.zipWithIndex().filter(_._1 < 1000000).map(_._2)

sample.saveAsObjectFile("path to file")

Answer 2

您可以通过增加分区数量来实现，使每个分区变小。检查您正在设置的执行程序的数量以及为每个执行程序保留多少内存也很重要（您没有在此问题上提供此信息）。

我发现this guide对于调优Spark非常有用。

在takeSample上运行堆内存的Spark作业

2 个答案: