使用熔化返回匹配值

时间:2016-04-29 06:46:07

标签: r text reshape melt

输入

listofstring <- c("Mac","Windows","Linux","Android")
test <- data.frame(query = c("I love Mac","I love Ubuntu","I love Android","I love both Android and Linux"), numerical_val = c(20,30,40,50))

我目前正在使用以下方法,它为我提供了所需的输出:

library(stringr)
melt(setNames(lapply(str_extract_all(test$query, 
      paste(listofstring,collapse="|")), function(x)
      if(length(x)==0) NA else x), test$query))[2:1]
#                            ind  values
#1                    I love Mac     Mac
#2                 I love Ubuntu    <NA>
#3                I love Android Android
#4 I love both Android and Linux Android
#5 I love both Android and Linux   Linux

所以,这是我想要的输出,我也得到它。

现在我还想在输出中包含numerical_val。所以,输出就像

#                            ind  values numerical_val
#1                    I love Mac     Mac      20
#2                 I love Ubuntu    <NA>      30
#3                I love Android Android      40
#4 I love both Android and Linux Android      50
#5 I love both Android and Linux   Linux      50

有人可以帮我修改我当前的方法。或者可以指导我一个更好的方法?

请注意,数据集非常庞大,目前的方法非常流畅。

1 个答案:

答案 0 :(得分:2)

假设您的结果数据框名为test1

library(dplyr)
names(test)[names(test)=='query'] <- 'ind'
inner_join(test, test1, by = 'ind')
#                            ind numerical_val  values
#1                    I love Mac            20     Mac
#2                 I love Ubuntu            30    <NA>
#3                I love Android            40 Android
#4 I love both Android and Linux            50 Android
#5 I love both Android and Linux            50   Linux

或者,data.table可能更有效率,

setDT(test)[test1, on="ind"]