应用错误收集

我正在使用20NewsGroup数据集进行文本分类，并且我使用了20NewsGroup_ByDate数据集。我提取了这里提供的词干文件

我在weka中应用了tf-idf转换，信息增益功能选择和Naive Bayes进行分类。我的结果高于上面提到的页面上提到的结果（82％）。我想了很多，并搜索我可能犯的错误，但无法找出任何错误我正在使用他们处理过的文件。

我只需要应用tf-idf，IG和分类器。请告诉我哪些可能出现的错误可能导致比预期更高的准确性？