Naive Bayes示例中的特征独立性?

时间:2015-03-18 22:41:20

标签: machine-learning nlp

“朴素贝叶斯的另一个系统性问题是 假设特征是独立的。结果是, 即使单词依赖,每个单词也有所贡献 证据个别。因此的规模 具有强词依赖性的类的权重 大于具有弱字依赖性的类。 保持具有更多依赖性的类不受支配, 我们将分类权重标准化。“(Reference

这到底是什么意思?有没有更好的解释它的例子?

1 个答案:

答案 0 :(得分:3)

朴素贝叶斯分类器将所有特征彼此独立地考虑在内。基本上这意味着功能组合的处理方式与每个功能单独出现的方式相同。

电子。 G。考虑三个句子

  1. "纽约是一个拥挤的城市。"
  2. "新车!我们提供最便宜的新车!"
  3. "新酒吧'猪肉屠宰场'今天在约克开幕。"
  4. 朴素贝叶斯分类器最终可能会分配标签"纽约"所有这些句子。那会发生,因为它会观察到" New"和"约克"彼此独立。从分类器的角度来看,第一句包含两个词,表示标签"纽约" (即" New"" York"),第二个(" New"以及后来" new")和第三个(" new"以及" York")。它并不关心第二句错过单词" York",因为两次" new"弥补了这一点(可能不是现实,因为"新"会出现在大量与纽约不相关的文件中,但对于这个例子,我们只假设两个词都有相同的权重)。分类器也不会关心第三句中远离彼此的词语。

    Naive Bayes as a graphical model

    Naive Bayes也可以表示为图形模型,如图像(source)所示。然后你可以将y视为类别"纽约"和x1 ... x4作为可观察的特征" New"," York"," Big"," Apple"。请注意,从y到x1 ... x4之间存在连接,但在每个x之间都没有。

    您发布的段落的第二部分似乎与权重标准化有关。基本上,如果你有类别的文件"东京"和"洛杉矶"并且假设这些城市的名称是指向相应类别的相同权重的观察,然后是仅包含单词的文档

      

    东京洛杉矶

    将被您的朴素贝叶斯分类器归类为属于类别"洛杉矶"。这是因为有两个观点赞成这个类别(" Los"," Angeles"),但只有一个赞成东京("东京" )。因此,您需要一些规范权重的方法来适应这个问题。