在Multinomial Naive bayes的scikit版本中,fit_prior有一个参数。
我发现对于不平衡的数据集,通常需要将其设置为false。
对于我的特定用例设置,它将我的AUC从0.52提高到0.61。
然而在pyspark.ml.classification.NaiveBayes中没有这样的设置,我认为这意味着它适合先辈们。
我“想”我可以通过阈值参数来抵消这一点,从根本上给予少数群体更多的权重。
在我的案例中,细分为87%为负,13%为阳性。 如果我确实可以使用阈值实际上做fit_prior到false我应该使用什么值。
是13/18~0.15还是......? 即我会用NaiveBayes创建它(阈值= [1,.15])
或者我完全偏离这个?