Question

根据Spark ML文档，随机森林和渐变提升树可以用于：分类和回归问题：

假设我的“标签”从0..n获取整数值，我想训练这些分类器用于回归问题，预测标签字段的连续变量值。但是，我没有在文档中看到应该如何为这个问题配置这两个回归量，我没有看到任何类别参数区分回归与分类的情况。那么如何为回归问题配置两个分类器呢？

Answer 1

没有涉及这样的配置，仅仅因为回归＆amp;分类问题实际上是由不同的子模块处理的。 Spark ML中的课程;即为了分类，你应该使用（假设PySpark）：

from pyspark.ml.classification import GBTClassifier  # GBT
from pyspark.ml.classification import RandomForestClassifier  # RF

而对于回归，你应该分别使用

from pyspark.ml.regression import GBTRegressor  # GBT
from pyspark.ml.regression import RandomForestRegressor  # RF

查看文档中的Classification and regression概述了解详情。