Question

我有data frame如下：

df1
ID    NAME   LOCATION
101   Jack   Netherlands
102   Jack     NA
104   Tom      NA
105   Tom     
123   Sam     
124   Sam      NA
134   Dan     
135   Dan    Germany

我想有这样的输出：

df2
ID    NAME   LOCATION
101   Jack   Netherlands
104   Tom      NA
124   Sam      NA
135   Da     Germany

感谢您的帮助。

Answer 1

您似乎有两种类型的缺失数据，其中一些标记为NA（您仍然会考虑＆＃34;完成＆＃34;），另一些标记为""（您要忽略它们）。

R约定与您的相反 - 具有NA的行不被认为是完整的，但空字符串""是完全有效的数据。我建议您在使用R 时匹配R＆＃约会 - 将数据框中的NA值替换为字符串（可能为"missing"或"not applicable" }），并用NA替换数据中的空字符串，因为您认为它们丢失了。然后，根据评论complete.cases

中的建议，df2 <- complete.cases(df1)将完美适合您

您可以使用replace功能对数据列进行这些更改。如果您的数据列是factor，则可以改为编辑级别（或者只是将其转换为character并使用replace函数）。如果您使用dput()（see here for details）重复分享您的数据，我会很乐意展示一些更明确的代码，但因为我不确定结构和基础类在你的数据中。

独特的数据框架但保留完整的案例

1 个答案: