在Spark中堆叠ML算法

时间:2019-01-05 09:06:00

标签: python apache-spark pyspark apache-spark-mllib ensemble-learning

是否存在用于在Spark中构建堆叠集成的Spark API,还是应该从头开始构建它们?我没有在线找到有关此主题的任何资源

1 个答案:

答案 0 :(得分:1)

正如AKSW的评论所述,在当前的Apache Spark MLlib中,只有两种特定的Ensemble模型实现,其中Random Forests用于袋装,Gradient Boosted Trees用于Boosting。

对于堆栈部分,我认为您不能在MLlib上找到任何东西,您必须通过以下一种方法自己完成:

  1. 通过向基础学习者添加矢量汇编器和最终的堆叠算法,创建一个函数来生成将进行堆叠的管道
  2. 创建一个将您的基础学习者和堆栈算法作为参数的元估算器

第二个方法很方便,因为它可以像Tuning Tools一样与所有MLlib工具一起使用

对于第二个解决方案,我制作了一个包含Boosting,Bagging和Stacking Meta-Estimators的库:spark-ensemble

您可以从中提取一些实现想法!