我想使用PySpark回归树来预测连续变量而不是分类数据。每个终端节点处的EG使用剩余训练数据的平均值。标签是[0,无穷大]实数。
Spark中有可能吗?该文档使用术语回归树:http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression但它喜欢预测变量是连续的而不是预测的。
答案 0 :(得分:0)
如果您转到this github page,您可以在Spark文档的示例中看到他们使用的示例数据。如果将其放入本地HDFS目录,则可以运行以下命令:
import MLUtils
data = MLUtils.loadLibSVMFile(sc, 'sample_libsvm_data.txt')
data.map(lambda x: x.label).distinct().collect()
此输出为[0.0, 1.0]
。这意味着在因变量是连续的意义上它不是回归树。功能似乎是连续的,但遗憾的是不是输出。看起来他们还没有为连续的y变量实现决策树。