我正在使用简单的词袋概念开发朴素的贝叶斯分类器。我的问题是天真的贝叶斯或任何其他机器学习senario '培训'分类器是一个重要的问题。但是当我已经拥有各种类型的bag_of_words时,如何训练朴素的贝叶斯分类器。
答案 0 :(得分:1)
当我已经拥有各种类型的bag_of_words时,如何训练朴素的贝叶斯分类器。
一般来说,你做的是:
training
另一个test
training
子集test
子集确实 - 那就是你的分类器如何学习将单词与不同的类分开。'训练'分类器是一个重要的事情
答案 1 :(得分:0)
The Stanford IR book很好地解释了Naive Bayes分类器的工作原理,并以文本分类为例。 The Wikipedia article还给出了理论的详细描述和一些具体的例子。
简而言之,您计算每个类中每个单词类型的出现次数,然后按文档数量进行标准化,以获得给定类p(w | c)的单词概率。然后使用贝叶斯规则得到给定文档p(c | doc)= p(c)* p(doc | c)的每个类的概率,其中给出类的文档的概率是概率的乘积它给出了类p(doc | c)=Π(w in doc)p(w | c)。在对类进行规范化之前,这些概率变得非常小,因此您可能需要取对数并求它们以避免下溢错误。