如何在语料库更改时保持文本分类器的准确性

时间:2014-12-21 21:13:59

标签: document-classification text-classification

我有一个关于文本分类的概念性问题。我有一套英语语言文档,我想根据文档内容进行分类。我正在建立一个分类器 - 我不确定我将使用什么方法:可能是SVM,贝叶斯或NN。我将有一套训练文件,当然还有一套测试装置。

这是我的问题:随着时间的推移,文档语料库会被添加,因此,随着语料库的变化,随着时间的推移,现在构建的分类器可能会变得不那么准确。如何保持分类器的最新和准确?我是否定期进行重新培训?随着语料库的变化,是否有一种持续训练的方法?这种情况是如何处理的?

1 个答案:

答案 0 :(得分:2)

您有两种可能的解决方案:

  1. (最简单的)如果您无法保证代表性的训练数据集,您可以考虑定期重做训练步骤(每次有足够的新例子)。

  2. 您可以考虑主动(或增量)学习,但是这种方法需要最终的用户交互,这并不总是需要。