R:根据另一列中的值从列中的拆分字符串中检索数据

时间:2015-12-20 11:04:19

标签: r split strsplit

我有一个非常大的数据框,如:

df = data.frame(nr = c(3,3,4), dependeny = c("6/3/1", "9/3/1",
  "5/4/4/1"), token=c("Trotz des Rückgangs", 
  "Trotz meherer Anfragen", "Trotz des ärgerlichen Unentschiedens"))

  nr dependeny                                token
1  3     6/3/1                  Trotz des Rückgangs
2  3     9/3/1               Trotz meherer Anfragen
3  4   5/4/4/1 Trotz des ärgerlichen Unentschiedens

我想添加第4列,其中包含“token”的摘录,具体取决于“nr”和“dependency”中的值。更确切地说,我想要“令牌”中的元素,它们对应于“依赖”中与“nr”对应的值。

实施例: 第1行: 我想要“des”,因为“nr”是3,而2是“依赖”中的第二个元素。 “令牌”中的第二个元素是“des”。

第3行: 我想要“desärgerlichen”,因为“nr”是4,而4是“依赖”中的第二和第三个元素。 “代币”中的第二和第三个元素是“desärgerlichen。

我尝试过使用split和str_split,但不知道如何处理结果元素。

2 个答案:

答案 0 :(得分:1)

我们可以使用base R方法创建第4列。

unlist(Map(function(x,y,z) paste(z[x==y], collapse=' '), 
         df$nr,strsplit(as.character(df$dependeny), '/'), 
            strsplit(as.character(df$token), ' ')))
#[1] "des"             "meherer"         "des ärgerlichen"

答案 1 :(得分:1)

一种选择是将数据拆分为" long"形成。有几种方法可以做到这一点,其中一种方法是使用我的" splitstackshape"中的cSplit。封装

library(splitstackshape)
cSplit(as.data.table(df)[, rn := .I], 
       c("dependeny", "token"), c("/", " "), "long")[nr == dependeny]
#    nr dependeny       token rn
# 1:  3         3         des  1
# 2:  3         3     meherer  2
# 3:  4         4         des  3
# 4:  4         4 ärgerlichen  3

请注意,我已在行号中添加了。如果需要,这允许我们将东西粘贴在一起:

cSplit(as.data.table(df)[, rn := .I],                   ## Adds row numbers
       c("dependeny", "token"), c("/", " "), "long")[   ## Splits the data into rows
         nr == dependeny][                              ## Selects the values of interest
         , paste(token, collapse = " "), by = rn]       ## Pastes the token values together
#    rn              V1
# 1:  1             des
# 2:  2         meherer
# 3:  3 des ärgerlichen