应用错误收集

时间：2012-08-20 01:54:41

标签： algorithm machine-learning classification document-classification

嘿，这是我的问题，

给定一组文档，我需要将每个文档分配到预定义的类别。

我打算使用n-gram方法来表示每个文档的文本内容，然后在我拥有的训练数据上训练SVM分类器。
如果我想念一些东西，请纠正我。

现在的问题是类别应该是动态的。意思是，我的分类器应该处理新类别的新训练数据。

例如，如果我训练分类器将给定文档分类为类别A，类别B或类别C，然后我获得了类别D的新训练数据。我应该能够逐步训练我的分类器，为其提供新的训练数据，用于＆＃34;类别D＆＃34;。

总而言之，我不想将旧的训练数据（包含3个类别）和新的训练数据（使用新的/看不见的类别）组合在一起并再次训练我的分类器。我想动态训练我的分类器

这可以用SVM实现吗？如果没有，你能推荐我几种分类算法吗？或任何可以帮助我的书/纸。

先谢谢。

答案 0 :(得分：8)

Naive-Bayes是相对快速的增量计算算法。
KNN本质上也是渐进的，甚至更容易实现和理解。

两种算法都在开源项目Weka中实现为NaiveBayes和IBk用于KNN。

然而，从个人经验来看 - 它们都容易受到大量非信息性特征的影响（通常是文本分类的情况），因此通常使用某种特征选择来从这些算法中挤出更好的性能，实现增量可能会有问题。

答案 1 :(得分：1)

Edwin Chen撰写的这篇博文描述了infinite mixture models进行聚类。我认为这种方法支持自动确定簇的数量，但我仍然试图绕过它。

答案 2 :(得分：0)

符合条件的算法类称为“增量算法”。几乎所有方法都有增量版本。最容易实现的是天真的贝叶斯。