我正在使用Weka的GUI来分类文本文档。我的数据集采用.arff格式。
我应用StringToWordVector过滤器。然后,我应用RemovePercentage过滤器将我的数据集划分为train和test set。它共包含99个实例和934个属性。在列车测试拆分之后,列车集包含66个实例,测试集包含33个实例。
我在火车组中学习模型:结果是准确度的100% 然后,我测试在测试集上学习的模型:结果是3.0303%。
有谁能帮助我理解为什么我得到3.0303%以及如何改善这个结果?
答案 0 :(得分:2)
朴素贝叶斯学习的模型是overfitted。您可以尝试不同的训练/测试分组(或cross validation)来防止这种情况发生。您也可以尝试调整朴素贝叶斯算法的参数或使用不同的参数。