Question

我已经使用良好的文本过滤实现了Naive-Bayes文档分类，并且我已经接受了具有良好准确性的统计结果，我需要使用EM算法来增强我的结果。

但我不知道我是否可以将EM算法应用于Naive-Bayes结果或将算法应用于数据并从头开始因此我可以比较结果

在这两种情况下，我都需要理解关于此问题的EM算法，因为它让我感到困惑

任何解释良好的文件都将受到赞赏

Answer 1

EM通常可以帮助您处理未标记的数据。如果您有一些未标记的数据，您基本上可以在这样的循环中使用它

estimate some initial parameters, perhaps even randomly
while not converged:
  relabel data using estimates
  update estimates using new labels

如果您正在进行有监督的学习，那么重新标记的步骤会消除您的标签，并且可能会使您的分类变得更糟。

另一方面，这个is a nice, detailed tutorial on semi-supervised naive bayes用于文本分类。如果您有一小组标记文档和大量未标记文档，您可以使用它们来估计初始参数，然后对未标记数据执行迭代步骤，最后得到更好的分类器。