我使用Naive Bayes算法创建了一个单词情感应用程序。
此分类训练数据中有两种类型的标准,即积极训练数据和负训练数据。我对已经分组的每个训练数据都采用了一个独特的词。所以,我对每个数据标准都有所有独特的单词。然后,我计算每个唯一单词出现的概率值。
问题在于我使用不均匀的训练数据。例如:我使用60%的负面训练数据和40%的正面训练数据。然后测试数据的结果更可能是负面结果,反之亦然。
除了我必须使用平衡数据,我该怎么做才能解决这个问题?还有一个我应该添加的方法吗?
答案 0 :(得分:1)
朴素贝叶斯需要平衡的训练数据,因为每个参数的可能性受先验值(优先级值)的影响。
此先验值取自每个数据的类。 也许当我解释这种事情时您已经了解了。