应用错误收集

时间：2015-07-02 21:49:59

标签： classification mahout text-classification document-classification

我有一个大数据集，我用它来训练一个使用Apache Mahout的天真分类器。我使用分类器对一堆文档进行分类（这就像我的测试集）。我对文件进行分类的方式如下：

我找到了测试文档的规范化tf-idf向量。为了找到idf我只考虑测试文件，而不是训练。

然而，在对测试文档进行分类之后，我会收到更多要分类的文档，我需要先计算新文档的tf-idf。一种解决方案是重新计算所有测试文档（旧文档和新文档）的tf-idf，然后将它们全部重新分类。在这种情况下，每次收到新文档时，我都需要重新计算tf-idf。我的问题是，是否有更好的解决方案来进行在线分类？

答案 0 :(得分：0)

收到新文档时，有多种方法。你的方法似乎不切实际。我建议仅为新文档计算tf-idf的两种方法，然后直接分类：

在测试集上尝试方法2和3，同时将测试集拆分为两个，并验证哪种方法更适合您的文档类型。