Question

我有两个来源的巨大合并数据框。我有兴趣找到2个分类变量的错误编码，但因为这两个来自不同的来源，所以它们编码不一样。

例如：

df

col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN

col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,..

显然他们是不同的。所以，我尝试以与col1类似的方式重新编码col2，并且我已使用mapvalue包中的plyr成功完成了此操作

当我尝试按col1==col2对数据进行分组时我总是得到错误级别设置的值不同请注意我在as.is=TRUE中尝试了read.csv参数，但没有任何效果。

Answer 1

我们可以做到

library(dplyr)
df1 %>%
     filter(as.character(col1) == toupper(as.character(col2)))