Pyspark 3.0+ 中的准确度、精确度和召回率等评估参数,Pyspark 中的混淆矩阵

时间:2021-02-11 17:34:14

标签: pyspark apache-spark-sql

在 Pyspark 3.0+ 中创建混淆矩阵以及评估参数(如准确度、精确度和召回率)的最佳方法是什么。我看过其他人的答案,但即使是一个只有 80 万行带有标签和预测的小型 pyspark 数据帧,它们也太慢了。

这里的解决方案Confusion Matrix to get precsion,recall, f1score 如果数据框很大,则对行进行排序会非常慢。有没有其他更好的方法。我还尝试了 collect 功能(也在同一链接中建议),但速度也很慢。

0 个答案:

没有答案