应用错误收集

朴素贝叶斯算法

时间：2016-05-20 23:44:39

标签： machine-learning artificial-intelligence

我发现这个非常有用的视频讨论了幼稚的贝叶斯分类。我注意到他计算出文件是正面的概率而不是单词是正面的概率。它是否正确？评论中指出了这一点，但迄今为止对作者没有任何回应。

https://www.youtube.com/watch?v=EGKeC2S44Rs

编辑：我刚刚发现这篇文章讨论了相同的方法。

http://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-text-classification-1.html

我的新问题是，如果培训数据是50/50怎么办？是否有理想的使用比例？

1 个答案:

答案 0 :(得分：1)

目的是将整个文档分类为正面或负面（两个类）。单词是否存在 - 以及具体哪些单词 - 会影响计算 - 但它们不是计算的目标。