我对机器学习很新。对不起,如果我的英文有任何错误。
我使用weka J48分类进行真或假的预测。我有近999K训练集用于训练模型。我使用3倍交叉验证方法来训练模型,这使我的准确率达到~84%。
现在存储模型后。我试图在50k数据集上测试它。这会产生非常糟糕的结果,其中50%是不匹配的。我有11个名义和数字字段的属性。
我不知道为什么会这样。
我有两个问题。
我在java中使用weka api。
答案 0 :(得分:2)
这意味着您的999k训练集的模型为overfit,并且不能很好地概括为您的50k测试集。
除了你的999k之外,你应该考虑与你的50k数据集(很好的部分,但不是全部)进行交叉验证。
您可能还想尝试高于k = 3,k倍交叉验证的东西,因为k = 3倍也可能太粗糙"。祝你好运!