我正在使用https://github.com/alitouka/spark_dbscan,并且为了确定参数,我正在使用它们提供的实用程序类,org.alitouka.spark.dbscan.exploratoryAnalysis.DistanceToNearestNeighborDriver。
我在一个10节点集群上,一台机器有8个内核和32G内存,9台机器有6个内核和16G内存。
我有442M的数据,这似乎是个玩笑,但是工作在最后阶段停滞不前。
它在调度程序延迟中停留了10个小时过夜,我在过去几天尝试了很多事情,但似乎没有任何帮助。
我试过了:
Spark版本是1.4.1
日志中充满了标准的公平,没有任何例外,甚至是有趣的[INFO]行。
以下是我使用的脚本:https://gist.github.com/isaacsanders/660f480810fbc07d4df2
Hadoop是:HDP 2.3.2.0-2950
以下是我的版本的主要内容和一个堆栈跟踪的gist(pastebin):https://gist.github.com/isaacsanders/2e59131758469097651b