标签: dataset sample sampling
我正在处理https://nlp.stanford.edu/sentiment/treebank.html数据集。 它有两列。一是对一两行的评论。第二个是等级,即介于0到4之间的数字。条目总数为8533。数据分配如下:
现在,我想从该数据集中取样,大小为10、20、30,依此类推。每次我想保持类分布与原始数据集中的相同。 我该怎么办?
答案 0 :(得分:0)
看分层抽样,这是许多现有解决方案的标准问题。 https://en.wikipedia.org/wiki/Stratified_sampling https://stats.stackexchange.com/questions/250273/benefits-of-stratified-vs-random-sampling-for-generating-training-data-in-classi