生成完美模拟训练集的决策树?

时间:2016-04-21 20:28:48

标签: machine-learning weka decision-tree j48

我有我的数据集,这是我的规则,我想生成一个决策树,至少在分类我的规则时有100%的准确性,但我永远不会得到100%。我将minNumObjs设置为1并将其取消,但我只获得了84%正确分类的实例。

我的属性是:

@attribute users numeric
@attribute bandwidth numeric
@attribute latency numeric
@attribute mode {C,H,DCF,MP,DC,IND}

ex data:

2,200000,0,C
2,200000,1000,C
2,200000,2000,MP
2,200000,5000,C
2,400000,0,C
2,400000,1000,DCF

有人可以帮助我理解为什么我永远无法将100%的实例分类,以及如何将100%的实例分类(同时仍允许我的属性为数字)

由于

1 个答案:

答案 0 :(得分:2)

由于具有不同标签的相同特征向量,有时不可能获得100%的准确度。我猜您的情况是usersbandwidthlatency是功能,而mode是您要预测的标签。如果是这样,那么{usersbandwidthlatency}的值可能会相同mode个标签。

通常,可以通过以下几种方式之一为相同的功能添加不同的标签:

  1. 由于数据读取错误,数据中存在噪音。
  2. 有一个未捕获的随机源。
  3. 有更多可能的功能可以区分不同的标签,但功能不在您的数据集中。
  4. 您现在可以做的一件事是通过决策树运行您的训练集,并找到错误分类的项目。尝试确定它们出错的原因并查看是否有任何数据实例展示了我上面写的内容(即有些数据实例具有相同的功能但标签不同)。