我被困在R的问题中希望有人可以帮助我。 我有一个具有多个属性的训练数据集。收入是具有< = 50和> 50的类的属性。 我需要创建一个新的训练数据集,它具有两个类的相同表示;即,“< = 50K”类的观察次数 必须与“> 50K”类的观察数相同。然后我需要调用这个新的训练数据集。
indx <- sample(1:nrow(adult.train), 15000)
train <- adult.train[-indx, ]
test <- adult.train[indx, ]
但是这只将我的数据集分成2组而不是按类分开。我只需要使用示例功能 大多数人都要对少数民族中的观察数量进行抽样。