如何处理挂在上一个任务上的Spark Job?

时间:2016-01-24 20:01:54

标签: hadoop apache-spark

我正在使用https://github.com/alitouka/spark_dbscan,并且为了确定参数,我正在使用它们提供的实用程序类,org.alitouka.spark.dbscan.exploratoryAnalysis.DistanceToNearestNeighborDriver。

我在一个10节点集群上,一台机器有8个内核和32G内存,9台机器有6个内核和16G内存。

我有442M的数据,这似乎是个玩笑,但是工作在最后阶段停滞不前。

它在调度程序延迟中停留了10个小时过夜,我在过去几天尝试了很多事情,但似乎没有任何帮助。

我试过了:

  • 增加堆大小和核心数
  • 使用不同资源量的更多/更少执行者。
  • Kyro序列化
  • 公平调度

Spark版本是1.4.1

日志中充满了标准的公平,没有任何例外,甚至是有趣的[INFO]行。

以下是我使用的脚本:https://gist.github.com/isaacsanders/660f480810fbc07d4df2

Hadoop是:HDP 2.3.2.0-2950

以下是我的版本的主要内容和一个堆栈跟踪的gist(pastebin):https://gist.github.com/isaacsanders/2e59131758469097651b

https://github.com/alitouka/spark_dbscan/blob/master/src/src/main/scala/org/alitouka/spark/dbscan/exploratoryAnalysis/DistanceToNearestNeighborDriver.scala

0 个答案:

没有答案