标签: pyspark apache-spark-sql
在 Pyspark 3.0+ 中创建混淆矩阵以及评估参数(如准确度、精确度和召回率)的最佳方法是什么。我看过其他人的答案,但即使是一个只有 80 万行带有标签和预测的小型 pyspark 数据帧,它们也太慢了。
这里的解决方案Confusion Matrix to get precsion,recall, f1score 如果数据框很大,则对行进行排序会非常慢。有没有其他更好的方法。我还尝试了 collect 功能(也在同一链接中建议),但速度也很慢。