我使用10倍交叉验证技术来训练200K记录。目标类索引就像
状态{PASS,FAIL}
Pass有~144K而Fail有~6K实例。
使用J48训练模型。它无法找到失败。准确度为95%,但大多数案例预测只是成功。在我们的情况下,我们需要找到实际发生的故障。
所以我的问题主要是假设分析。
在培训期间(在我的案例中,PASS,FAIL),类实例之间的分配是否真的重要。
weka J48树中有什么可能的值可以更好地训练,因为我看到每1000条记录中有2%的失败。因此,如果我们增加Success方案,将会有所增加。
为了更好地训练他们,他们之间的比例应该是多少。
就比率而言,我在API中找不到任何东西。
我没有添加代码,因为这既发生在Java API上,也发生在使用weka GUI工具。
非常感谢。