每两个字符多次拆分字符串

时间:2016-01-09 15:10:51

标签: r string dataframe tidyr

我的数据框中有一个类似于

的字符列
df<-
  data.frame(a=c("AaBbCC","AABBCC","AAbbCC"))#df
       a
1 AaBbCC
2 AABBCC
3 AAbbCC

我想每两个字符拆分此列。所以在这种情况下,我想获得三个名为VA,VB,VC的列。 我试过了

library(tidyr)
library(dplyr)
df<-
  data.frame(a=c("AaBbCC","AABBCC","AAbbCC"))%>%
  separate(a,c(paste("V",LETTERS[1:3],sep="")),sep=c(2,2))
 VA VB   VC
1 Aa    BbCC
2 AA    BBCC
3 AA    bbCC

但这不是理想的结果。我希望现在VC中的结果分为VB(所有字母B)和VC(所有字母C)我如何让R分割每两个字符。列中字符串的长度对于每一行始终相同(在此示例中为6)。 我将使用长度> 10的字符串。

2 个答案:

答案 0 :(得分:6)

你其实很亲密。您需要将分隔符位置指定为sep = c(2,4)而不是sep = c(2,2)

df <- separate(df, a, c(paste0("V",LETTERS[1:3])),sep = c(2,4))

你得到:

> df
  VA VB VC
1 Aa Bb CC
2 AA BB CC
3 AA bb CC

在基地R你可以做(​​借用@ rawr的评论):

l <- ave(as.character(df$a), FUN = function(x) strsplit(x, '(?<=..)', perl = TRUE))
df <- data.frame(do.call('rbind', l))

给出:

> df
  X1 X2 X3
1 Aa Bb CC
2 AA BB CC
3 AA bb CC

答案 1 :(得分:4)

我们可以使用base R

执行此操作
read.csv(text=gsub('(..)(?!$)', '\\1,', df$a, 
    perl=TRUE),col.names=paste0("V", LETTERS[1:3]), header=FALSE)
#  VA VB VC
#1 Aa Bb CC
#2 AA BB CC
#3 AA bb CC

如果我们直接从文件中读取,则另一个选项是read.fwf

read.fwf(file="yourfile.txt", widths=c(2,2,2), skip=1)