如何在R中的2个不同列中选择相同的分类观察

时间:2017-06-03 14:23:39

标签: r subset categorical-data

我有两个来源的巨大合并数据框。我有兴趣找到2个分类变量的错误编码,但因为这两个来自不同的来源,所以它们编码不一样。

例如:

df

col1 levels: DM,GDM,NO,UNTIME,NOTKNOWN

col2 levels: type 1 dm, type 2 dm, gdm, hx of gdm,resolve,..
显然他们是不同的。所以,我尝试以与col1类似的方式重新编码col2,并且我已使用mapvalue包中的plyr成功完成了此操作

当我尝试按col1==col2对数据进行分组时 我总是得到错误级别设置的值不同 请注意我在as.is=TRUE中尝试了read.csv参数,但没有任何效果。

1 个答案:

答案 0 :(得分:0)

我们可以做到

library(dplyr)
df1 %>%
     filter(as.character(col1) == toupper(as.character(col2)))