我有一个20,000,000行的数据集。每行有30列。
其中一列包含7000个唯一的产品编号。
每行包含一个单位成本值,我想使用除单位成本以外的所有列来预测。
我想构建一个唯一的决策树或决策树的唯一分支来为每个产品编号建模数据。
基本上为每个产品编号划分行,并单独为每个产品编号建模。
如果可能的话,我想在Azure中训练一个模型来执行此操作。
答案 0 :(得分:0)
您必须使用lapply使用创建R模块和火车脚本来创建多个模型
训练脚本如下所示:
model <-
lapply(seq(max(dataset$ProductNumber)),
function(j)
if(nrow(dataset[dataset$ProductNumber==j,])>0)
{
multinom(UnitCost~.,data=dataset[dataset$ProductNumber==j,])
}
)
然后你可以使用类似下面的预测脚本
probabilities <- predict(model[[dataset$ProductNumber]], dataset, type="probs")
scores<-data.frame(probabilities)