如何用tidyr将更长的字符串值分成两列

时间:2017-04-21 15:35:21

标签: r string split tidyr

当我尝试用(长)字符串值分隔列时:

df <- tbl_df(c("Indian | Londen", "Greek | Amsterdam", "Hamburger and BBQ | Paris du Nord"))
df <- separate(df, col = value, into = c("var1","var2"), sep = " | ")

我收到一条警告消息,指出三个位置的值太多,当我查看更改的数据帧时,我没有得到所需的df

# A tibble: 3 × 2
       var1  var2
*     <chr> <chr>
1    Indian     |
2     Greek     |
3 Hamburger   and

它似乎在每个空间分裂,有没有人知道解决这个问题的方法? var2应包含城市或地区名称,谢谢。

2 个答案:

答案 0 :(得分:1)

sep参数解析为正则表达式,当它是字符时。所以你需要在正则表达式中转义|这是一个特殊字符(),模式|(空白或空格)是相同的 regex 中的空格,这就是你的字符串按空格分割的原因:

df <- separate(df, col = value, into = c("var1","var2"), sep = " \\| ")

df
# A tibble: 3 × 2
#               var1          var2
#*             <chr>         <chr>
#1            Indian        Londen
#2             Greek     Amsterdam
#3 Hamburger and BBQ Paris du Nord

答案 1 :(得分:1)

只是做:

由于管道在正则表达式中具有特殊含义,因此它意味着“OR”,因此您必须先将其转义。您也可以在字符类[|]下使用它来获得相同的结果

df1 <- separate(df, col = value, into = c("var1","var2"), sep = "\\|")

OR

df1 <- separate(df, col = value, into = c("var1","var2"), sep = "[|]")

BASE R 方式:

dfx<- data.frame(do.call("rbind",strsplit(df$value,split="\\|")))

输出:

> dfx
                  X1             X2
1            Indian          Londen
2             Greek       Amsterdam
3 Hamburger and BBQ   Paris du Nord