Question

当我尝试用（长）字符串值分隔列时：

df <- tbl_df(c("Indian | Londen", "Greek | Amsterdam", "Hamburger and BBQ | Paris du Nord"))
df <- separate(df, col = value, into = c("var1","var2"), sep = " | ")

我收到一条警告消息，指出三个位置的值太多，当我查看更改的数据帧时，我没有得到所需的df

# A tibble: 3 × 2
       var1  var2
*     <chr> <chr>
1    Indian     |
2     Greek     |
3 Hamburger   and

它似乎在每个空间分裂，有没有人知道解决这个问题的方法？ var2应包含城市或地区名称，谢谢。

Answer 1

将sep参数解析为正则表达式，当它是字符时。所以你需要在正则表达式中转义|这是一个特殊字符（或），模式|（空白或空格）是相同的 regex 中的空格，这就是你的字符串按空格分割的原因：

df <- separate(df, col = value, into = c("var1","var2"), sep = " \\| ") df # A tibble: 3 × 2 # var1 var2 #* <chr> <chr> #1 Indian Londen #2 Greek Amsterdam #3 Hamburger and BBQ Paris du Nord

Answer 2

只是做：

由于管道在正则表达式中具有特殊含义，因此它意味着“OR”，因此您必须先将其转义。您也可以在字符类[|]下使用它来获得相同的结果

df1 <- separate(df, col = value, into = c("var1","var2"), sep = "\\|")

OR

df1 <- separate(df, col = value, into = c("var1","var2"), sep = "[|]")

BASE R 方式：

dfx<- data.frame(do.call("rbind",strsplit(df$value,split="\\|")))

输出：

> dfx
                  X1             X2
1            Indian          Londen
2             Greek       Amsterdam
3 Hamburger and BBQ   Paris du Nord

如何用tidyr将更长的字符串值分成两列

2 个答案: