根据列中因子/分类值的频率删除行

时间:2016-02-15 00:21:22

标签: r subset regression cross-validation training-data

我有一个数据集,我将进行交叉验证培训。但是,由于数据的这种分离,我有时会遇到错误,因为在训练集中找不到测试集中的因子级别----因为这个因素可能发生的次数非常有限。

我想在进行任何交叉验证之前轻松过滤掉这些行,以避免错误......

例如,我如何检查以确保包含9个或更少观察值的因子被删除?

mtcars$carb = factor(mtcars$carb)
table(mtcars$carb)

1 个答案:

答案 0 :(得分:2)

使用库library(dplyr) mtcars %>% group_by(carb) %>% filter(n() > 9) ,你可以尝试这样的事情:

<ion-view title="Login" hide-nav-bar="true">

或者,您可以对训练集中的变量进行重新分解,并从测试集中删除不在训练数据中的任何级别。