根据Spark ML文档,随机森林和渐变提升树可以用于:分类和回归问题:
假设我的“标签”从0..n获取整数值,我想训练这些分类器用于回归问题,预测标签字段的连续变量值。但是,我没有在文档中看到应该如何为这个问题配置这两个回归量,我没有看到任何类别参数区分回归与分类的情况。那么如何为回归问题配置两个分类器呢?
答案 0 :(得分:1)
没有涉及这样的配置,仅仅因为回归&分类问题实际上是由不同的子模块处理的。 Spark ML中的课程;即为了分类,你应该使用(假设PySpark):
from pyspark.ml.classification import GBTClassifier # GBT
from pyspark.ml.classification import RandomForestClassifier # RF
而对于回归,你应该分别使用
from pyspark.ml.regression import GBTRegressor # GBT
from pyspark.ml.regression import RandomForestRegressor # RF
查看文档中的Classification and regression概述了解详情。