machine-learning - Naive Bayes示例中的特征独立性？

朴素贝叶斯分类器将所有特征彼此独立地考虑在内。基本上这意味着功能组合的处理方式与每个功能单独出现的方式相同。

电子。 G。考虑三个句子

＆＃34;纽约是一个拥挤的城市。＆＃34;
＆＃34;新车！我们提供最便宜的新车！＆＃34;
＆＃34;新酒吧＆＃39;猪肉屠宰场＆＃39;今天在约克开幕。＆＃34;

朴素贝叶斯分类器最终可能会分配标签＆＃34;纽约＆＃34;所有这些句子。那会发生，因为它会观察到＆＃34; New＆＃34;和＆＃34;约克＆＃34;彼此独立。从分类器的角度来看，第一句包含两个词，表示标签＆＃34;纽约＆＃34; （即＆＃34; New＆＃34;＆＃34; York＆＃34;），第二个（＆＃34; New＆＃34;以及后来＆＃34; new＆＃34;）和第三个（＆＃34; new＆＃34;以及＆＃34; York＆＃34;）。它并不关心第二句错过单词＆＃34; York＆＃34;，因为两次＆＃34; new＆＃34;弥补了这一点（可能不是现实，因为＆＃34;新＆＃34;会出现在大量与纽约不相关的文件中，但对于这个例子，我们只假设两个词都有相同的权重）。分类器也不会关心第三句中远离彼此的词语。

Naive Bayes as a graphical model

Naive Bayes也可以表示为图形模型，如图像（source）所示。然后你可以将y视为类别＆＃34;纽约＆＃34;和x1 ... x4作为可观察的特征＆＃34; New＆＃34;，＆＃34; York＆＃34;，＆＃34; Big＆＃34;，＆＃34; Apple＆＃34;。请注意，从y到x1 ... x4之间存在连接，但在每个x之间都没有。

您发布的段落的第二部分似乎与权重标准化有关。基本上，如果你有类别的文件＆＃34;东京＆＃34;和＆＃34;洛杉矶＆＃34;并且假设这些城市的名称是指向相应类别的相同权重的观察，然后是仅包含单词的文档

东京洛杉矶

将被您的朴素贝叶斯分类器归类为属于类别＆＃34;洛杉矶＆＃34;。这是因为有两个观点赞成这个类别（＆＃34; Los＆＃34;，＆＃34; Angeles＆＃34;），但只有一个赞成东京（＆＃34;东京＆＃34; ）。因此，您需要一些规范权重的方法来适应这个问题。

Naive Bayes示例中的特征独立性？

1 个答案: