Question

我有一个包含28个变量的数据集，我想从其中4个变量中排除所有缺失的数据。

如果我在整个数据集中使用na.omit，我将丢失这些列中的数据。我想要的是获取包含完整数据的示例，并排除这4个变量中有NA值的行。

另外，如果我想在这4个变量中排除NA值，那么每个变量的数据不会超过5％呢？

Answer 1

您可以使用tidyr包：

library(tidyr)
df %>% drop_na(col_a, col_b, col_c, col_d)

对于第二部分，您可能需要获取不同的子集并将它们组合在一起。 AFAIK