我刚刚开始与Weka合作,当我的决策树太深时,我无法理解。 我有一套423个功能,据我所知,每个目标都是随机选择的。因此,这些特征子集生成具有决策叶的分支或流,这些分支或流似乎不是通用的,实际上它们太具体,因为它们仅适用于语料库中所有情况的一个或两个案例,例如,没有(2/0) ),是(1/0)。 我认为它没有很好地概括,也许这是因为决策树太深了。所以我的问题是,应该是树的maxDepth?我怎么知道树太深了?我尝试过将maxDepth更改为10,但是叶子仍然包含基于少数情况的决策。 此外,默认情况下Weka生成10棵树,我想知道设置更多树木是否会带来更好的结果。我已经读过随机森林可以很好地使用100,300甚至500棵树,但我不知道这是否适用于一组423个功能。 最后,我想知道" 1"在这个决定中意味着:" no(632/1)"。这是否意味着632被正确归类为" no"但其中一个被归类为"是"即使它是"没有" ?那是" 1"假阳性? 谢谢你的帮助!
答案 0 :(得分:1)
在这种情况下尝试的最好的方法是对参数进行网格搜索。因此,您可以决定性能指标,并找出不同参数的值。这对于确定最佳参数设置是有益的。还尝试在验证集而不是训练集上计算该性能指标。