应用错误收集

在Multinomial Naive bayes的scikit版本中，fit_prior有一个参数。

我发现对于不平衡的数据集，通常需要将其设置为false。

对于我的特定用例设置，它将我的AUC从0.52提高到0.61。

然而在pyspark.ml.classification.NaiveBayes中没有这样的设置，我认为这意味着它适合先辈们。

我“想”我可以通过阈值参数来抵消这一点，从根本上给予少数群体更多的权重。

在我的案例中，细分为87％为负，13％为阳性。如果我确实可以使用阈值实际上做fit_prior到false我应该使用什么值。

是13/18~0.15还是......？即我会用NaiveBayes创建它（阈值= [1，.15]）

或者我完全偏离这个？