标签: scala apache-spark pipeline random-forest
我是Spark Scala的新手,并且正在EMR集群上运行代码。我的数据包含分类值和数值。
我有一个代码可以处理诸如2000条记录之类的小数据,但是当在500k条记录上运行时,它永远不会停止,执行程序也会超时!我不知道问题出在哪里?它花费了很多时间,但仍然没有运气:( 知道是什么问题吗? 我的代码如下:
$