我需要一个大规模幼稚贝叶斯库,拥有数百万个训练样例和+10k二进制特征。它必须是在线版本(培训后可更新)。我还需要top-k输出,即单个实例的多个分类。准确性不是很重要。
目的是自动文本分类应用程序。
非常感谢任何关于良好图书馆的建议。
编辑:该库最好是Java。
答案 0 :(得分:2)
如果除了朴素贝叶斯之外的学习算法也是可以接受的,那么请查看Vowpal Wabbit(C ++),它具有最好的可扩展文本分类算法(在线随机梯度下降+ LDA)之一的声誉。我不确定它是否会产生前K输出。