我正在尝试用Python(scikit-learn)做一些二元决策树,但是我的样本有一个糟糕的重新分区:我有一些标签为0的100 000个数据点和标签为1的800 000。
因此,当我得到树时,我没有很多类0的叶子,在达到5的深度之前我甚至都没有。在那个节点中,只有很少的点。 / p>
我还尝试了其他变量的树(仍然是相同的标签),我获得了标签为0的更多数据;问题是我不确定这是否有意义。
我该怎么办?我应该用每个标签的50%来抽取我的数据样本吗?我担心这样做不会真正代表我的数据,特别是如果我把新数据放在树后。 有谁知道决策树样本的要求是什么?我没有找到任何关于它的信息。
提前多多感谢,
玛丽