如何评估pyspark NLP二进制分类模型?

时间:2018-11-07 20:59:24

标签: pyspark nlp evaluate

我有NLP二进制分类LogisticRegression模型,需要对其进行评估。
我有以下代码:
from pyspark.ml.evaluation import BinaryClassificationEvaluator
(trainingData, testData) = tfidf.randomSplit([0.7, 0.3], seed = 100)
REG = 0.1
lr_ev = LogisticRegression(featuresCol="features", labelCol='label', regParam=REG)
lrModel_ev = lr_ev.fit(trainingData)
predictions = lrModel_ev.transform(testData)
evaluator = BinaryClassificationEvaluator(predictionCol="prediction")
evaluator.evaluate(predictions)


我想看模型的评价。我尝试使用文档中的方法,但对我不起作用:
str_ev = evaluator.toString() print("str_ev: ", str_ev)
我收到此错误:
TypeError: __init__() got an unexpected keyword argument 'predictionCol'

我在evaluator = BinaryClassificationEvaluator(predictionCol="prediction")上更改了evaluator = BinaryClassificationEvaluator(rawPredictionCol="prediction")
并得到这个:
py4j.protocol.Py4JJavaError: An error occurred while calling o183.evaluate. : java.lang.IllegalArgumentException: requirement failed: Column prediction must be of type org.apache.spark.mllib.linalg.VectorUDT@f71b0bce but was actually DoubleType.

我不知道如何简单地评估我的二进制分类模型。
非常感谢您的任何建议。
最好的问候,
弗拉基米尔

0 个答案:

没有答案