哪种分类算法可用于文档分类?

时间:2012-08-20 01:54:41

标签: algorithm machine-learning classification document-classification

嘿,这是我的问题,

给定一组文档,我需要将每个文档分配到预定义的类别。

我打算使用n-gram方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练SVM分类器。
如果我想念一些东西,请纠正我。

现在的问题是类别应该是动态的。意思是,我的分类器应该处理新类别的新训练数据。

例如,如果我训练分类器将给定文档分类为类别A,类别B或类别C,然后我获得了类别D的新训练数据。我应该能够逐步训练我的分类器,为其提供新的训练数据,用于"类别D"。

总而言之,我不想将旧的训练数据(包含3个类别)和新的训练数据(使用新的/看不见的类别)组合在一起并再次训练我的分类器。我想动态训练我的分类器

这可以用SVM实现吗?如果没有,你能推荐我几种分类算法吗?或任何可以帮助我的书/纸。

先谢谢。

3 个答案:

答案 0 :(得分:8)

Naive-Bayes是相对快速的增量计算算法。
KNN本质上也是渐进的,甚至更容易实现和理解。

两种算法都在开源项目Weka中实现为NaiveBayesIBk用于KNN。

然而,从个人经验来看 - 它们都容易受到大量非信息性特征的影响(通常是文本分类的情况),因此通常使用某种特征选择来从这些算法中挤出更好的性能,实现增量可能会有问题。

答案 1 :(得分:1)

Edwin Chen撰写的这篇博文描述了infinite mixture models进行聚类。我认为这种方法支持自动确定簇的数量,但我仍然试图绕过它。

答案 2 :(得分:0)

符合条件的算法类称为“增量算法”。几乎所有方法都有增量版本。最容易实现的是天真的贝叶斯。