我有我的数据集,这是我的规则,我想生成一个决策树,至少在分类我的规则时有100%的准确性,但我永远不会得到100%。我将minNumObjs设置为1并将其取消,但我只获得了84%正确分类的实例。
我的属性是:
@attribute users numeric
@attribute bandwidth numeric
@attribute latency numeric
@attribute mode {C,H,DCF,MP,DC,IND}
ex data:
2,200000,0,C
2,200000,1000,C
2,200000,2000,MP
2,200000,5000,C
2,400000,0,C
2,400000,1000,DCF
有人可以帮助我理解为什么我永远无法将100%的实例分类,以及如何将100%的实例分类(同时仍允许我的属性为数字)
由于
答案 0 :(得分:2)
由于具有不同标签的相同特征向量,有时不可能获得100%的准确度。我猜您的情况是users
,bandwidth
和latency
是功能,而mode
是您要预测的标签。如果是这样,那么{users
,bandwidth
,latency
}的值可能会相同mode
个标签。
通常,可以通过以下几种方式之一为相同的功能添加不同的标签:
您现在可以做的一件事是通过决策树运行您的训练集,并找到错误分类的项目。尝试确定它们出错的原因并查看是否有任何数据实例展示了我上面写的内容(即有些数据实例具有相同的功能但标签不同)。