使用NaiveBayes实现期望最大化算法

时间:2012-02-12 13:42:58

标签: php statistics document-classification expectation-maximization

我已经使用良好的文本过滤实现了Naive-Bayes文档分类,并且我已经接受了具有良好准确性的统计结果,我需要使用EM算法来增强我的结果。

但我不知道我是否可以将EM算法应用于Naive-Bayes结果或将算法应用于数据并从头开始因此我可以比较结果

在这两种情况下,我都需要理解关于此问题的EM算法,因为它让我感到困惑

任何解释良好的文件都将受到赞赏

1 个答案:

答案 0 :(得分:1)

EM通常可以帮助您处理未标记的数据。如果您有一些未标记的数据,您基本上可以在这样的循环中使用它

estimate some initial parameters, perhaps even randomly
while not converged:
  relabel data using estimates
  update estimates using new labels

如果您正在进行有监督的学习,那么重新标记的步骤会消除您的标签,并且可能会使您的分类变得更糟。

另一方面,这个is a nice, detailed tutorial on semi-supervised naive bayes用于文本分类。如果您有一小组标记文档和大量未标记文档,您可以使用它们来估计初始参数,然后对未标记数据执行迭代步骤,最后得到更好的分类器。