我正在尝试使用Logistic回归对一些数据建模,这是Spark MLlib的一部分。对于模型创建,我具有以下列:
ID,
features,
label
我可以通过以下方式将其拆分为Train和value数据
(trainsample,testsample) = sample.randomSplit([0.7, 0.3], seed)
此外,我可以定义我的模型:
lr = LogisticRegression(featuresCol="features", labelCol="label",
predictionCol="prediction")
然后我可以使用以下方法进行训练和测试:
lrmodel = lr.fit(trainsample)
result = lrmodel.transform(testmodel)
很好。但是现在我想使用我的模型并预测未标记的数据。我总是 以下错误:
IllegalArgumentException: 'Field "label" does not exist
我试图创建一个虚拟标签列(所有值999)。但是比起,我的所有预测都属于一个类别(对于7个不同的类别,为6类)。因此,即使使用预先训练的模型,该标签似乎也会影响我的预测。
也许“ lrmodel.transform”仅用于测试,还有使用该模型的其他语法。但是我没有找到关于这个话题的任何东西。任何帮助将不胜感激。
答案 0 :(得分:0)
发现了问题...我的功能集x_x中有标签...感谢您的帮助