训练朴素贝叶斯分类器

时间:2015-04-18 14:35:44

标签: machine-learning classification naivebayes

我正在使用简单的词袋概念开发朴素的贝叶斯分类器。我的问题是天真的贝叶斯或任何其他机器学习senario '培训'分类器是一个重要的问题。但是当我已经拥有各种类型的bag_of_words时,如何训练朴素的贝叶斯分类器。

2 个答案:

答案 0 :(得分:1)

  

当我已经拥有各种类型的bag_of_words时,如何训练朴素的贝叶斯分类器。

一般来说,你做的是:

  1. 将您的一揽子文字拆分为两个随机子集,调用一个training另一个test
  2. training子集
  3. 上训练分类器
  4. 通过针对test子集
  5. 运行分类器的准确性来验证分类器的准确性
      

    '训练'分类器是一个重要的事情

    确实 - 那就是你的分类器如何学习将单词与不同的类分开。

答案 1 :(得分:0)

The Stanford IR book很好地解释了Naive Bayes分类器的工作原理,并以文本分类为例。 The Wikipedia article还给出了理论的详细描述和一些具体的例子。

简而言之,您计算每个类中每个单词类型的出现次数,然后按文档数量进行标准化,以获得给定类p(w | c)的单词概率。然后使用贝叶斯规则得到给定文档p(c | doc)= p(c)* p(doc | c)的每个类的概率,其中给出类的文档的概率是概率的乘积它给出了类p(doc | c)=Π(w in doc)p(w | c)。在对类进行规范化之前,这些概率变得非常小,因此您可能需要取对数并求它们以避免下溢错误。