问题是在大数据上运行带有管道的随机森林

时间:2019-04-11 15:28:22

标签: scala apache-spark pipeline random-forest

我是Spark Scala的新手,并且正在EMR集群上运行代码。我的数据包含分类值和数值。

我有一个代码可以处理诸如2000条记录之类的小数据,但是当在500k条记录上运行时,它永远不会停止,执行程序也会超时!我不知道问题出在哪里?它花费了很多时间,但仍然没有运气:( 知道是什么问题吗? 我的代码如下:

$

0 个答案:

没有答案