随机森林分类器指标rdd

时间:2019-04-10 03:13:30

标签: apache-spark-mllib

使用pyspark寻找基于Dataframe的随机森林分类器指标,例如ROC,精度召回曲线,精度,召回率和F1得分。我可以在RDD对象上获得相同的指标。有人可以帮忙吗。

1 个答案:

答案 0 :(得分:0)

如果我正确理解,您想在ML数据帧上计算ML指标? 您可以只将最终数据帧转换为rdd,然后将现有的度量函数用于rdd。 例如:

 from pyspark.mllib.evaluation import BinaryClassificationMetrics

 predictions = model.transform(some_data_in_dataframe)
 labels_and_predictions = predictions.select("prediction","true_label").rdd

 metrics = BinaryClassificationMetrics(labels_and_predictions)
 print((metrics.areaUnderPR * 100))
 print((metrics.areaUnderROC * 100))