使用pyspark寻找基于Dataframe的随机森林分类器指标,例如ROC,精度召回曲线,精度,召回率和F1得分。我可以在RDD对象上获得相同的指标。有人可以帮忙吗。
答案 0 :(得分:0)
如果我正确理解,您想在ML数据帧上计算ML指标? 您可以只将最终数据帧转换为rdd,然后将现有的度量函数用于rdd。 例如:
from pyspark.mllib.evaluation import BinaryClassificationMetrics
predictions = model.transform(some_data_in_dataframe)
labels_and_predictions = predictions.select("prediction","true_label").rdd
metrics = BinaryClassificationMetrics(labels_and_predictions)
print((metrics.areaUnderPR * 100))
print((metrics.areaUnderROC * 100))