创建两个数据子集,以便每个子集具有相等比例的类

时间:2018-10-11 23:57:02

标签: python machine-learning classification

我有一个python和机器学习的初学者。我有30k +观测值的数据集,而且高度不平衡。我必须创建两个数据子集,以使第一个子集包含92%的成功记录和8%的失败记录,并且同样适用于第二个子集,因为这两个集合占整个数据集的70-30。

len(data)= 30k

subset1 = 30k的70%,其中包含(92%的成功记录和8%的失败记录)

subset1 = 30k的30%,其中包含(92%的成功记录和8%的失败记录)

这是用于二进制分类。这些子集1和子集2将根据业务用于训练和测试数据集。

1 个答案:

答案 0 :(得分:0)

在无法访问数据集的情况下,我可以为您提供一些指导,以实现此目的,

  • 将原始数据帧(df)分为成功(df_s)和失败记录(df_f)
  • df1和df2各自包含df中的15,000条记录
  • 使用pandas.DataFrame.Sample()从df_s中提取0.92条记录,并从df_f中提取0.8条记录,并将它们放入df1中。
  • df_s中剩下的东西和df_f都进入df2(注意:您可能需要根据数据来进行最后一步操作)