R:将gsub应用于数据帧会返回NA

时间:2019-04-16 18:32:19

标签: r gsub

我正在尝试将包含数字和空格的数据框转换为数字。当前,数字采用factor格式,有些数字带有“,”。

df <- data.frame(num1 = c("123,456,789", "1,234,567", "1,234", ""), num2 = c("","1,012","","202"))
df
         num1  num2
1 123,456,789      
2   1,234,567 1,012
3       1,234      
4               202

删除“,”并转换为数字格式:

df2 = as.numeric(gsub(",","",df))
Warning message:
NAs introduced by coercion

有趣的是,如果我逐列执行相同的功能,那么它将起作用:

df$num1 = as.numeric(gsub(",","",df$num1)) 
df$num2 = as.numeric(gsub(",","",df$num2))
df
             num1  num2
    1   123456789    NA
    2     1234567  1012
    3        1234    NA
    4          NA   202

我的问题是1.原因是什么,以及是否有一种方法可以避免逐列转换它们,因为实际数据帧中有更多的列;和2.对于将来的数字运算,删除NA或将其替换为0的最佳方法是什么?我知道我可以使用gsub来这样做,但是只是想知道是否有更好的方法。

1 个答案:

答案 0 :(得分:1)

replace_na替换为,'')后,我们可以使用str_replace_all

library(dplyr)
library(stringr)
df %>% 
   mutate_all(list(~ str_replace_all(., ",", "") %>% 
                        as.numeric %>%
                        replace_na(0)))
#       num1 num2
#1 123456789    0
#2   1234567 1012
#3      1234    0
#4         0  202

gsub/sub的问题在于它可以在vector中描述的?gsub上工作

  

x,文字-   寻求匹配的字符向量,或可以通过as.charer强制转换为字符向量的对象。支持长向量。

我们可以遍历各列,应用gsub,然后将输出分配回原始数据集

df[] <- lapply(df, function(x) as.numeric(gsub(",", "", x))) 
df[is.na(df)] <- 0 # change the NA elements to 0