Question

我想使用PySpark回归树来预测连续变量而不是分类数据。每个终端节点处的EG使用剩余训练数据的平均值。标签是[0，无穷大]实数。

Spark中有可能吗？该文档使用术语回归树：http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression但它喜欢预测变量是连续的而不是预测的。

Answer 1

如果您转到this github page，您可以在Spark文档的示例中看到他们使用的示例数据。如果将其放入本地HDFS目录，则可以运行以下命令：

import MLUtils


data = MLUtils.loadLibSVMFile(sc, 'sample_libsvm_data.txt') 
data.map(lambda x: x.label).distinct().collect()

此输出为[0.0, 1.0]。这意味着在因变量是连续的意义上它不是回归树。功能似乎是连续的，但遗憾的是不是输出。看起来他们还没有为连续的y变量实现决策树。