Question

我正在尝试使用Logistic回归对一些数据建模，这是Spark MLlib的一部分。对于模型创建，我具有以下列：

ID,
features,
label

我可以通过以下方式将其拆分为Train和value数据

(trainsample,testsample) =  sample.randomSplit([0.7, 0.3], seed)

此外，我可以定义我的模型：

lr = LogisticRegression(featuresCol="features", labelCol="label", 
predictionCol="prediction")

然后我可以使用以下方法进行训练和测试：

lrmodel = lr.fit(trainsample)
result = lrmodel.transform(testmodel)

很好。但是现在我想使用我的模型并预测未标记的数据。我总是以下错误：

IllegalArgumentException: 'Field "label" does not exist

我试图创建一个虚拟标签列（所有值999）。但是比起，我的所有预测都属于一个类别（对于7个不同的类别，为6类）。因此，即使使用预先训练的模型，该标签似乎也会影响我的预测。

也许“ lrmodel.transform”仅用于测试，还有使用该模型的其他语法。但是我没有找到关于这个话题的任何东西。任何帮助将不胜感激。

Answer 1

发现了问题...我的功能集x_x中有标签...感谢您的帮助