应用错误收集

时间：2018-03-05 14:54:45

标签： artificial-intelligence text-processing sentiment-analysis naivebayes

我使用Naive Bayes算法创建了一个单词情感应用程序。

此分类训练数据中有两种类型的标准，即积极训练数据和负训练数据。我对已经分组的每个训练数据都采用了一个独特的词。所以，我对每个数据标准都有所有独特的单词。然后，我计算每个唯一单词出现的概率值。

问题在于我使用不均匀的训练数据。例如：我使用60％的负面训练数据和40％的正面训练数据。然后测试数据的结果更可能是负面结果，反之亦然。

除了我必须使用平衡数据，我该怎么做才能解决这个问题？还有一个我应该添加的方法吗？

答案 0 :(得分：1)

朴素贝叶斯需要平衡的训练数据，因为每个参数的可能性受先验值（优先级值）的影响。

此先验值取自每个数据的类。也许当我解释这种事情时您已经了解了。