决策树样本中标记数据的权重

时间:2017-05-01 10:06:30

标签: python scikit-learn classification decision-tree

我正在尝试用Python(scikit-learn)做一些二元决策树,但是我的样本有一个糟糕的重新分区:我有一些标签为0的100 000个数据点和标签为1的800 000。

因此,当我得到树时,我没有很多类0的叶子,在达到5的深度之前我甚至都没有。在那个节点中,只有很少的点。 / p>

我还尝试了其他变量的树(仍然是相同的标签),我获得了标签为0的更多数据;问题是我不确定这是否有意义。

我该怎么办?我应该用每个标签的50%来抽取我的数据样本吗?我担心这样做不会真正代表我的数据,特别是如果我把新数据放在树后。 有谁知道决策树样本的要求是什么?我没有找到任何关于它的信息。

提前多多感谢,

玛丽

0 个答案:

没有答案