应用错误收集

我们是一群使用spark的人（火花2.1.0独立有2名工人;编程是在scala中完成的，一切都是在几个码头工人里面奔跑）。我们遇到了一个问题当收集的数据点击时，“collect”或“take（n）”变得非常慢一些大小的上限。

我们曾多次遇到这个问题，但我们已经煮沸了将问题简化为一个简单的例子：它读取一个文件（来自本地文件系统或来自hdfs;我们测试了两个）然后收集结果。它工作正常，直到一定大小的文件（约2 MB）和然后它非常慢（大约3 MB它完全断开）。如果它不收集（例如它只是一个saveAsTextFile）设置可以处理大到200 GB的文件。我们测试过增加了驱动程序内存十倍（从2GB的RAM到20GB的RAM）但它没有解决问题;事实上我们的测试表明我们的小实验无论我们提供多少RAM，文件大小都会相同给司机或工人。

我在这里总结了我的实验：https://pastebin.com/raw/6yXztq0H

在这个实验中程序读取文件“s”和“take（n）”和“n” 逐渐增加。正如时间戳输出所示，它几乎可以工作即刻为“n≤104145”（尽管设置有很大的变化，它实际上只是变化了一点）然后它很慢。对于大“n”（见第二次运行）驱动程序崩溃，出现“TaskResultLost”错误。最后实验（第三次运行）表明这似乎不是一个记忆问题（这似乎是合乎逻辑的，因为文件相对较小，约2 MB）。

（实验中没有显示，但我们也玩过 SPARK_DAEMON_MEM但它似乎没有任何改变。）

有没有人遇到过同样的问题？有没有人想帮我们进一步搜索？

关于spark

2 个答案: