在Lingpipe的EM教程中,他们说可以在没有监督数据的情况下运行算法:
通过使初始分类器随机分配类别,可以以完全无监督的方式训练分类器。只需要修复类别数量。算法完全相同,收敛后的结果或最大历元数是分类器。
但是他们的班级TradNaiveBayesClassifier
需要一个标签和一个未标记的语料库来运行。如何修改它以便在没有标记数据的情况下运行?
答案 0 :(得分:0)
EM是概率最大似然优化算法。通常,它适用于无监督算法(用于聚类),例如PLSA,高斯混合模型。
我认为linepipe doc说你可以使用所有数据标签的随机初始化(每个数据的标签分布),然后输入NB来计算ELBO(证据下限),然后最大化它以获得更新参数。
简而言之,您需要使用NB来编写M步骤---更新模型参数。