我有一个大数据集,我用它来训练一个使用Apache Mahout的天真分类器。我使用分类器对一堆文档进行分类(这就像我的测试集)。我对文件进行分类的方式如下:
我找到了测试文档的规范化tf-idf向量。为了找到idf我只考虑测试文件,而不是训练。
然而,在对测试文档进行分类之后,我会收到更多要分类的文档,我需要先计算新文档的tf-idf。一种解决方案是重新计算所有测试文档(旧文档和新文档)的tf-idf,然后将它们全部重新分类。在这种情况下,每次收到新文档时,我都需要重新计算tf-idf。我的问题是,是否有更好的解决方案来进行在线分类?
答案 0 :(得分:0)
收到新文档时,有多种方法。你的方法似乎不切实际。我建议仅为新文档计算tf-idf的两种方法,然后直接分类:
在测试集上尝试方法2和3,同时将测试集拆分为两个,并验证哪种方法更适合您的文档类型。