pyspark - Pyspark 3.0+ 中的准确度、精确度和召回率等评估参数，Pyspark 中的混淆矩阵 - Thinbug

Pyspark 3.0+ 中的准确度、精确度和召回率等评估参数，Pyspark 中的混淆矩阵

时间：2021-02-11 17:34:14

标签： pyspark apache-spark-sql

在 Pyspark 3.0+ 中创建混淆矩阵以及评估参数（如准确度、精确度和召回率）的最佳方法是什么。我看过其他人的答案，但即使是一个只有 80 万行带有标签和预测的小型 pyspark 数据帧，它们也太慢了。

这里的解决方案Confusion Matrix to get precsion,recall, f1score 如果数据框很大，则对行进行排序会非常慢。有没有其他更好的方法。我还尝试了 collect 功能（也在同一链接中建议），但速度也很慢。

0 个答案:

没有答案