IllegalArgumentException:'字段“ label”不存在Spark MLlib

时间:2018-12-11 08:04:31

标签: scala apache-spark pyspark apache-spark-mllib

我正在尝试使用Logistic回归对一些数据建模,这是Spark MLlib的一部分。对于模型创建,我具有以下列:

ID,
features,
label

我可以通过以下方式将其拆分为Train和value数据

(trainsample,testsample) =  sample.randomSplit([0.7, 0.3], seed)

此外,我可以定义我的模型:

lr = LogisticRegression(featuresCol="features", labelCol="label", 
predictionCol="prediction")

然后我可以使用以下方法进行训练和测试:

lrmodel = lr.fit(trainsample)
result = lrmodel.transform(testmodel)

很好。但是现在我想使用我的模型并预测未标记的数据。我总是 以下错误:

IllegalArgumentException: 'Field "label" does not exist 

我试图创建一个虚拟标签列(所有值999)。但是比起,我的所有预测都属于一个类别(对于7个不同的类别,为6类)。因此,即使使用预先训练的模型,该标签似乎也会影响我的预测。

也许“ lrmodel.transform”仅用于测试,还有使用该模型的其他语法。但是我没有找到关于这个话题的任何东西。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

发现了问题...我的功能集x_x中有标签...感谢您的帮助