是否存在用于在Spark中构建堆叠集成的Spark API,还是应该从头开始构建它们?我没有在线找到有关此主题的任何资源
答案 0 :(得分:1)
正如AKSW的评论所述,在当前的Apache Spark MLlib中,只有两种特定的Ensemble模型实现,其中Random Forests用于袋装,Gradient Boosted Trees用于Boosting。
对于堆栈部分,我认为您不能在MLlib上找到任何东西,您必须通过以下一种方法自己完成:
第二个方法很方便,因为它可以像Tuning Tools一样与所有MLlib工具一起使用
对于第二个解决方案,我制作了一个包含Boosting,Bagging和Stacking Meta-Estimators的库:spark-ensemble
您可以从中提取一些实现想法!