scala - 问题是在大数据上运行带有管道的随机森林 - Thinbug

问题是在大数据上运行带有管道的随机森林

时间：2019-04-11 15:28:22

标签： scala apache-spark pipeline random-forest

我是Spark Scala的新手，并且正在EMR集群上运行代码。我的数据包含分类值和数值。

我有一个代码可以处理诸如2000条记录之类的小数据，但是当在500k条记录上运行时，它永远不会停止，执行程序也会超时！我不知道问题出在哪里？它花费了很多时间，但仍然没有运气:( 知道是什么问题吗？我的代码如下：

0 个答案:

没有答案