我已经使用良好的文本过滤实现了Naive-Bayes文档分类,并且我已经接受了具有良好准确性的统计结果,我需要使用EM算法来增强我的结果。
但我不知道我是否可以将EM算法应用于Naive-Bayes结果或将算法应用于数据并从头开始因此我可以比较结果
在这两种情况下,我都需要理解关于此问题的EM算法,因为它让我感到困惑
任何解释良好的文件都将受到赞赏
答案 0 :(得分:1)
EM通常可以帮助您处理未标记的数据。如果您有一些未标记的数据,您基本上可以在这样的循环中使用它
estimate some initial parameters, perhaps even randomly
while not converged:
relabel data using estimates
update estimates using new labels
如果您正在进行有监督的学习,那么重新标记的步骤会消除您的标签,并且可能会使您的分类变得更糟。
另一方面,这个is a nice, detailed tutorial on semi-supervised naive bayes用于文本分类。如果您有一小组标记文档和大量未标记文档,您可以使用它们来估计初始参数,然后对未标记数据执行迭代步骤,最后得到更好的分类器。