拥有此数据:
clientId zipCode codeHeatingType countingType consumptionProfile householdCount squareFootage
01 75015 ELEC P012 A400 6 25
02 75002 GAZ P011 A600 3 30
和AvgConsumtion
clientId AvgConsumption
01 300.5 (KWH)
02 400 (KWH)
根据客户特征,学习用什么机器来估算平均消耗? LogisticRegression ?,多标签分类?...
是否可以有一个带字符串列的例子?
答案 0 :(得分:0)
您需要一种预测连续变量的回归算法。您可以在spark.ml
here中找到使用示例实现的回归算法列表。
可以使用非参数(非优化)Transformer
以各种方式转换分类预测变量(请参阅http://spark.apache.org/docs/latest/ml-features.html)。例如,OneHotEncoder将转换一组二元预测变量中的分类预测变量。 documentation中提供了示例。
注意:在尝试过多之前,请告知您机器学习的一些基础知识。存在一系列纯粹具有统计性质的陷阱。有关具体问题,请询问here