应用错误收集

Pyspark中的模型概率校准

时间：2020-09-27 10:01:55

标签： pyspark calibration imbalanced-data

我正在使用PySpark来实现针对业务问题的Churn分类模型，并且我拥有的数据集不平衡。因此，当我训练模型时，我会随机选择一个具有相等数量的1和0的数据集。然后将模型应用于实时数据中，预测的1和0的数量显然相等。

现在，我需要校准我训练有素的模型。但是我找不到在PySpark中做到这一点的方法。有谁知道如何在PySpark中校准模型，可能类似于CalibratedClassifierCV吗？

0 个答案:

没有答案