我有一个庞大的数据集,大约有160万行,而我需要关注的变量(列)是“温度”。温度列具有许多NA值,其他变量列也具有NA值。我只想删除温度列中具有NA值的行,我并不特别在意其他列中的NA值。我怎样才能做到这一点?如果我最终需要删除具有NA值的行,而不仅仅是我的温度列(例如,深度列),该如何选择两列?这是我的代码:
otn <- tidync(filename, row.names=TRUE) %>% activate('D0')
glider_table <- hyper_tibble(otn)
attach(glider_table)
summary(temperature)
na.omit(glider_table)
na.omit()删除所有具有NA值的行,无论它们位于哪一列中,因此我需要更具选择性。
答案 0 :(得分:1)
您可以使用drop_na()函数,第一个参数是数据集名称,第二个参数是可选参数,您可以在其中命名要从中删除NA响应的特定列。 像这样,drop_na(dataset,column)