ID列训练模型

时间:2018-04-17 21:42:20

标签: tensorflow machine-learning scikit-learn apache-spark-ml

我正在使用scikit-learn训练模型,我的数据集中有一个ID列。我训练模型时删除了ID列。但是在测试数据集后,我需要在做预测后将其映射回ID列。

最好的方法是什么?在scikit-learn中构建模型时,我们可以设置非预测变量列吗?另外,其他ML工具如TensorFlow,Spark ML一般如何呢。他们支持这个功能吗?

我在stackoverflow上发现了这个post,但正在寻找其他选项。

1 个答案:

答案 0 :(得分:1)

我假设您将数据(X)存储在pd.DataFrame中。 如果是这种情况,只需将值提取到numpy ndarray中。相应的行将具有相同的顺序。一个scikit-learn程式化的例子:

output = pd.Series(data=some_model.predict(X.values), index=X.index)