如何在Apache Mahout中进行在线分类?

时间:2015-07-02 21:49:59

标签: classification mahout text-classification document-classification

我有一个大数据集,我用它来训练一个使用Apache Mahout的天真分类器。我使用分类器对一堆文档进行分类(这就像我的测试集)。我对文件进行分类的方式如下:

我找到了测试文档的规范化tf-idf向量。为了找到idf我只考虑测试文件,而不是训练。

然而,在对测试文档进行分类之后,我会收到更多要分类的文档,我需要先计算新文档的tf-idf。一种解决方案是重新计算所有测试文档(旧文档和新文档)的tf-idf,然后将它们全部重新分类。在这种情况下,每次收到新文档时,我都需要重新计算tf-idf。我的问题是,是否有更好的解决方案来进行在线分类?

1 个答案:

答案 0 :(得分:0)

收到新文档时,有多种方法。你的方法似乎不切实际。我建议仅为新文档计算tf-idf的两种方法,然后直接分类:

  1. 使用所有文件(新的和以前看到的所有文件)计算idf
  2. 使用已经在测试集上计算的idf
  3. 在测试集上尝试方法2和3,同时将测试集拆分为两个,并验证哪种方法更适合您的文档类型。