劣质和良好样本的随机抽样样本量

时间:2015-08-06 00:37:05

标签: decision-tree sampling random-sample supervised-learning sample-size

我现在有一个非常大的数据集。响应变量是二进制1/0。不良人口规模只占整个数据集的很小一部分。良好的人口规模是8,000,000。标记为1的不良人口规模仅为7,000。

我使用了决策树,这个决策树将这些特征作为输入,然后将个体分类为1或0。

因为人口规模非常大。 R无法有效处理所有数据。所以我决定随机抽取一些好样品。但我想保留所有不良样品。所以我选择了8000个好的样本,并包括了所有7000个不良样本。因此,我有15,000个样本。我随机将它们分成训练和测试数据集。在训练集上训练决策树之后,我将测试数据拟合到训练模型中,结果变得很有希望。

然而,我真的很担心这种模式现在对整个人口的影响。虽然我比较了良好样本和良好种群的不同变量条件下的分布,但良好样本的分布与良好的种群非常一致。

因为好样本和坏样本在采样数据中的权重相等,所以" BAD"在训练模型时被夸大了,我在想" BAD"不会"坏"如果整个数据适合模型,因为坏部分太小。你认为这是该模型潜在的失败问题吗?您有什么建议可以解决这个问题吗?

0 个答案:

没有答案