分层类别的样本

时间:2018-06-19 15:03:49

标签: python database mongodb nosql pymongo

我有一个包含100万条数据的集合。

文档中有两个字段:

  • 可以包含10个值的字符串(我们称其为A)
  • 一个int(我们称其为B)

我希望有一个样本,其中25%的数据符合以下两个规则:

1-A在样本中的分布应该与原始集合中的分布相同

2-对于此特定分布,请选择B较大的数据

0 个答案:

没有答案