我是数据挖掘的新手,我正在尝试训练决策树,但我选择的数据集非常偏向,因此我得到的结果也有偏见。我在网上搜索过,我发现平衡准确。我对结果不满意。
如果我以这样的方式对我的数据集进行采样,那么这是一个好主意吗?在1000个YES
和1000个NO
的情况下,我会对它进行平均分配?
答案 0 :(得分:0)
处理类不平衡的一种方法是对较大的类进行欠采样,使类分布大约为一半。
你的问题的答案是肯定的,假设1000是较小类的大小,那么你就会失去较少的大类数据点。
注意:从大型数据点中进行选择时,请尝试省略那些缺失值较多的数据点。
答案 1 :(得分:0)
您还可以在建模时给予重量。你可以为少数民族分配更高的权重,它将弥补不平衡。