Question

使用pyspark寻找基于Dataframe的随机森林分类器指标，例如ROC，精度召回曲线，精度，召回率和F1得分。我可以在RDD对象上获得相同的指标。有人可以帮忙吗。

Answer 1

如果我正确理解，您想在ML数据帧上计算ML指标？您可以只将最终数据帧转换为rdd，然后将现有的度量函数用于rdd。例如：

 from pyspark.mllib.evaluation import BinaryClassificationMetrics

 predictions = model.transform(some_data_in_dataframe)
 labels_and_predictions = predictions.select("prediction","true_label").rdd

 metrics = BinaryClassificationMetrics(labels_and_predictions)
 print((metrics.areaUnderPR * 100))
 print((metrics.areaUnderROC * 100))

随机森林分类器指标rdd

1 个答案: