具有top-k输出的大规模朴素贝叶斯分类器

时间:2011-07-12 11:40:19

标签: nlp machine-learning bayesian classification

我需要一个大规模幼稚贝叶斯库,拥有数百万个训练样例和+10k二进制特征。它必须是在线版本(培训后可更新)。我还需要top-k输出,即单个实例的多个分类。准确性不是很重要。

目的是自动文本分类应用程序。

非常感谢任何关于良好图书馆的建议。

编辑:该库最好是Java。

1 个答案:

答案 0 :(得分:2)

如果除了朴素贝叶斯之外的学习算法也是可以接受的,那么请查看Vowpal Wabbit(C ++),它具有最好的可扩展文本分类算法(在线随机梯度下降+ LDA)之一的声誉。我不确定它是否会产生前K输出。