我有一个ID为df1的
df1 <- read.table(text="ID
8765
1879
8706
1872
0178
0268
0270
0269
0061
0271", header=T)
第二个df2,列名
> names(df2)
[1] "TW_3784.IT" "TW_3970.IT" "TW_1879.IT" "TW_0178.IT" "SF_0271.IT" "TW_3782.IT"
[7] "TW_3783.IT" "TW_8765.IT" "TW_8706.IT" "SF_0268.IT" "SF_0270.IT" "SF_0269.IT"
[13] "SF_0061.IT"
我需要的是仅保留df2中与df1部分匹配的列
df3 = df2 %>%
dplyr::select(df2 , dplyr::contains(df1$ID))
error
Error in dplyr::contains(df1$ID) : is_string(match) is not TRUE
df3 = df2[,grepl(df1$ID, names(df2))]
error
In grepl(df1$ID, names(df2)) :
argument 'pattern' has length > 1 and only the first element will be used
答案 0 :(得分:1)
由于列名中有清晰的图案,因此可以使用substr
提取每个4位ID。将其转换为数字以删除前导零。使用which
标识要保留的列号。
df2 <- c("TW_3784.IT", "TW_3970.IT", "TW_1879.IT", "TW_0178.IT", "SF_0271.IT", "TW_3782.IT")
numbers <- which(as.numeric(substr(df2, 4, 7)) %in% df1[,1])
接下来,您可以使用以下列号来子集数据框:df[,numbers]
。
答案 1 :(得分:1)
这是使用dplyr
软件包的解决方案。
df2 %>% select(matches(paste(df1$ID, collapse = "|")))
这会将ID
中的df1
与|
作为分隔符(意思是逻辑OR
)粘贴在一起,如下所示:
"8765|1879|8706|1872|178|268|270|269|61|271"
这是必需的,因为matches
然后查找与这些数字中的一个或另一个匹配的列名称,然后对这些列进行select
运算。 dplyr
,select
和matches
都需要%>%
。
答案 2 :(得分:0)
在df1中,您的“文本”列为整数类型。
str(df1)
'data.frame': 10 obs. of 1 variable:
$ ID: int 8765 1879 8706 1872 178 268 270 269 61 271
转换为字符串,is_string()应该返回true。
b6$ID <- as.character(b6$ID)