有没有办法用pyspark.ml.classification.NaiveBayes

时间:2017-12-02 19:40:03

标签: apache-spark pyspark apache-spark-mllib

在Multinomial Naive bayes的scikit版本中,fit_prior有一个参数。

我发现对于不平衡的数据集,通常需要将其设置为false。

对于我的特定用例设置,它将我的AUC从0.52提高到0.61。

然而在pyspark.ml.classification.NaiveBayes中没有这样的设置,我认为这意味着它适合先辈们。

我“想”我可以通过阈值参数来抵消这一点,从根本上给予少数群体更多的权重。

在我的案例中,细分为87%为负,13%为阳性。 如果我确实可以使用阈值实际上做fit_prior到false我应该使用什么值。

是13/18~0.15还是......? 即我会用NaiveBayes创建它(阈值= [1,.15])

或者我完全偏离这个?

0 个答案:

没有答案