应用错误收集

我正在尝试用Python（scikit-learn）做一些二元决策树，但是我的样本有一个糟糕的重新分区：我有一些标签为0的100 000个数据点和标签为1的800 000。

因此，当我得到树时，我没有很多类0的叶子，在达到5的深度之前我甚至都没有。在那个节点中，只有很少的点。 / p>

我还尝试了其他变量的树（仍然是相同的标签），我获得了标签为0的更多数据;问题是我不确定这是否有意义。

我该怎么办？我应该用每个标签的50％来抽取我的数据样本吗？我担心这样做不会真正代表我的数据，特别是如果我把新数据放在树后。有谁知道决策树样本的要求是什么？我没有找到任何关于它的信息。

提前多多感谢，

玛丽