Spark ML随机森林和梯度提升树用于回归

时间:2018-03-31 04:21:55

标签: apache-spark machine-learning classification regression apache-spark-ml

根据Spark ML文档,随机森林渐变提升树可以用于:分类和回归问题:

https://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-regression

假设我的“标签”从0..n获取整数值,我想训练这些分类器用于回归问题,预测标签字段的连续变量值。但是,我没有在文档中看到应该如何为这个问题配置这两个回归量,我没有看到任何类别参数区分回归与分类的情况。那么如何为回归问题配置两个分类器呢?

1 个答案:

答案 0 :(得分:1)

没有涉及这样的配置,仅仅因为回归&分类问题实际上是由不同的子模块处理的。 Spark ML中的课程;即为了分类,你应该使用(假设PySpark):

from pyspark.ml.classification import GBTClassifier  # GBT
from pyspark.ml.classification import RandomForestClassifier  # RF

而对于回归,你应该分别使用

from pyspark.ml.regression import GBTRegressor  # GBT
from pyspark.ml.regression import RandomForestRegressor  # RF

查看文档中的Classification and regression概述了解详情。