我发现这个非常有用的视频讨论了幼稚的贝叶斯分类。我注意到他计算出文件是正面的概率而不是单词是正面的概率。它是否正确?评论中指出了这一点,但迄今为止对作者没有任何回应。
https://www.youtube.com/watch?v=EGKeC2S44Rs
编辑:我刚刚发现这篇文章讨论了相同的方法。http://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-text-classification-1.html
我的新问题是,如果培训数据是50/50怎么办?是否有理想的使用比例?
答案 0 :(得分:1)
目的是将整个文档分类为正面或负面(两个类)。单词是否存在 - 以及具体哪些单词 - 会影响计算 - 但它们不是计算的目标。