我有两个来源的巨大合并数据框。我有兴趣找到2个分类变量的错误编码,但因为这两个来自不同的来源,所以它们编码不一样。
例如:
df
col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN
col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,..
显然他们是不同的。所以,我尝试以与col1类似的方式重新编码col2,并且我已使用mapvalue
包中的plyr
成功完成了此操作
当我尝试按col1==col2
对数据进行分组时
我总是得到错误级别设置的值不同
请注意我在as.is=TRUE
中尝试了read.csv
参数,但没有任何效果。
答案 0 :(得分:0)
我们可以做到
library(dplyr)
df1 %>%
filter(as.character(col1) == toupper(as.character(col2)))