我有一个python和机器学习的初学者。我有30k +观测值的数据集,而且高度不平衡。我必须创建两个数据子集,以使第一个子集包含92%的成功记录和8%的失败记录,并且同样适用于第二个子集,因为这两个集合占整个数据集的70-30。
len(data)= 30k
subset1 = 30k的70%,其中包含(92%的成功记录和8%的失败记录)
subset1 = 30k的30%,其中包含(92%的成功记录和8%的失败记录)
这是用于二进制分类。这些子集1和子集2将根据业务用于训练和测试数据集。
答案 0 :(得分:0)
在无法访问数据集的情况下,我可以为您提供一些指导,以实现此目的,