在这种情况下使用的回归算法是什么?

时间:2016-10-11 09:27:45

标签: apache-spark regression

拥有此数据:

clientId zipCode codeHeatingType countingType consumptionProfile householdCount squareFootage 

01       75015  ELEC            P012            A400            6               25              

02       75002  GAZ             P011            A600            3               30              

和AvgConsumtion

clientId     AvgConsumption
  01           300.5      (KWH)
  02           400        (KWH)

根据客户特征,学习用什么机器来估算平均消耗? LogisticRegression ?,多标签分类?...

是否可以有一个带字符串列的例子?

1 个答案:

答案 0 :(得分:0)

您需要一种预测连续变量的回归算法。您可以在spark.ml here中找到使用示例实现的回归算法列表。

可以使用非参数(非优化)Transformer以各种方式转换分类预测变量(请参阅http://spark.apache.org/docs/latest/ml-features.html)。例如,OneHotEncoder将转换一组二元预测变量中的分类预测变量。 documentation中提供了示例。

注意:在尝试过多之前,请告知您机器学习的一些基础知识。存在一系列纯粹具有统计性​​质的陷阱。有关具体问题,请询问here