如何从保持类平衡的数据集中获取样本?

时间:2018-10-24 07:51:32

标签: dataset sample sampling

我正在处理https://nlp.stanford.edu/sentiment/treebank.html数据集。 它有两列。一是对一两行的评论。第二个是等级,即介于0到4之间的数字。条目总数为8533。数据分配如下:

  • 评分,该评分的示例数
  • 3,2318
  • 1,2215
  • 2,1623
  • 4,1287
  • 0,1090

现在,我想从该数据集中取样,大小为10、20、30,依此类推。每次我想保持类分布与原始数据集中的相同。 我该怎么办?