回归树预测Spark中的连续变量

时间:2016-06-03 15:41:01

标签: pyspark decision-tree

我想使用PySpark回归树来预测连续变量而不是分类数据。每个终端节点处的EG使用剩余训练数据的平均值。标签是[0,无穷大]实数。

Spark中有可能吗?该文档使用术语回归树:http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression但它喜欢预测变量是连续的而不是预测的。

1 个答案:

答案 0 :(得分:0)

如果您转到this github page,您可以在Spark文档的示例中看到他们使用的示例数据。如果将其放入本地HDFS目录,则可以运行以下命令:

import MLUtils


data = MLUtils.loadLibSVMFile(sc, 'sample_libsvm_data.txt') 
data.map(lambda x: x.label).distinct().collect()

此输出为[0.0, 1.0]。这意味着在因变量是连续的意义上它不是回归树。功能似乎是连续的,但遗憾的是不是输出。看起来他们还没有为连续的y变量实现决策树。