将字符拆分为数据框中的两个变量

时间:2013-04-24 15:14:49

标签: r reshape2

假设我有一个像这样的变量向量:

>variable
[1] "A1" "A1" "A1" "A1" "A2" "A2" "A2" "A2" "B1" "B1" "B1" "B1"

我希望将其转换为这样的数据框:

  treatment time
1         A    1
2         A    1
3         A    1
4         A    1
5         A    2
6         A    2
7         A    2
8         A    2
9         B    1
10        B    1
11        B    1
12        B    1

为此,我使用了reshape2的colsplit功能。它需要一个模式来分割字符串,但我很快意识到没有明显的模式来分割两个字符而没有任何空格。 我试过“”并得到以下结果:

> colsplit(trialm$variable,"",names=c("treatment","time"))
   treatment time
1         NA   A1
2         NA   A1
3         NA   A1
4         NA   A1
5         NA   A2
6         NA   A2
7         NA   A2
8         NA   A2
9         NA   B1
10        NA   B1
11        NA   B1
12        NA   B1

我也尝试过lookbehind或lookahead正则表达式:

>colsplit(trialm$variable,"(?<=\\w)",names=c("treatment","time"))
Error in gregexpr("(?<=\\w)", c("A1", "A1", "A1", "A1", "A2", "A2", "A2",  : 
  invalid regular expression '(?<=\w)', reason 'Invalid regexp'

但它给了我上面的错误。我该如何解决这个问题?

9 个答案:

答案 0 :(得分:10)

更新:2017年12月24日

沿着这条线的某个地方,“stringr”包(使用“reshape2”导入并负责与colsplit进行拆分)开始使用“stringi”来实现其几个功能。由于这一点,一些行为似乎已经改变了。

使用当前的“reshape2”(以及当前的“stringr”包),colsplit的工作方式与您对代码的预期方式相同:

packageVersion("reshape2")
## [1] ‘1.4.3’
packageVersion("stringr")
## [1] ‘1.2.0’

colsplit(variable, "", names = c("treatment", "time"))
##    treatment time
## 1          A    1
## 2          A    1
## 3          A    1
## 4          A    1
## 5          A    2
## 6          A    2
## 7          A    2
## 8          A    2
## 9          B    1
## 10         B    1
## 11         B    1
## 12         B    1

原始答案:2013年4月24日

如果可以在“变量”中检测到模式,但没有可以使用的干净分割字符,则添加一个:)

library(reshape2)
variable <- c("A1", "A1", "A1", "A1", "A2", "A2", 
              "A2", "A2", "B1", "B1", "B1", "B1")
## Here, we add a "." between upper case letters and numbers
colsplit(gsub("([A-Z])([0-9])", "\\1\\.\\2", variable), 
         "\\.", c("Treatment", "Time"))
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# ::::: snip :::: #
# 11         B    1
# 12         B    1

附加选项:2017年12月23日

我的“splitstackshape”包有一个名为NoSep的单用途非导出辅助函数,可以用于此:

splitstackshape:::NoSep(variable)
##    .var .time_1
## 1     A       1
## 2     A       1
## 3     A       1
## 4     A       1
## 5     A       2
## ::: snip :::: #
## 11    B       1
## 12    B       1

“tidyverse”(特别是“tidyr”包)有几个方便的功能,可以将值分成不同的列:separateextractseparatealready been demonstrated by jazzuro,但解决方案对此特定问题非常具体。此外,它通常使用分隔符更好。 extract希望您指定包含要捕获的组的正则表达式:

library(tidyverse)
data.frame(variable) %>% 
  extract(variable, into = c("Treatment", "Time"), regex = "([A-Z]+)([0-9]+)")
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# ::::: snip :::: #
# 11         B    1
# 12         B    1

答案 1 :(得分:7)

substr是另一种方法。

> variable <- c(rep("A1", 4), rep("A2", 4), rep("B1", 4))
> data.frame(treatment=substr(variable, 1,1), time=as.numeric(substr(variable,2,2)))
   treatmen time
1         A    1
2         A    1
3         A    1
4         A    1
5         A    2
6         A    2
7         A    2
8         A    2
9         B    1
10        B    1
11        B    1
12        B    1

答案 2 :(得分:6)

如果您使用向量variable创建数据框,则可以立即使用separate()包中的tidyr

mydf <- data.frame(variable = c(rep("A1", 4), rep("A2", 4), rep("B1", 4)),
                   stringsAsFactors = FALSE)

separate(mydf, variable, c("treatement", "time"), sep = 1)

#   treatement time
#1           A    1
#2           A    1
#3           A    1
#4           A    1
#5           A    2
#6           A    2
#7           A    2
#8           A    2
#9           B    1
#10          B    1
#11          B    1
#12          B    1

答案 3 :(得分:5)

您可以使用substr拆分它:

e.g。

df <- data.frame(treatment =   substr(variable, start = 1, stop = 1),
                 time =        substr(variable, start = 2, stop = 2) )

答案 4 :(得分:4)

使用正则表达式的另一种解决方案

require(stringr)
variable <- c(paste0("A", c(rep(1, 4), rep(2, 3))),
              paste0("B", rep(1, 4))
              )

data.frame(
    treatment = str_extract(variable, "[[:alpha:]]"),
    time = as.numeric(str_extract(variable, "[[:digit:]]"))
    )

##    treatment time
## 1          A    1
## 2          A    1
## 3          A    1
## 4          A    1
## 5          A    2
## 6          A    2
## 7          A    2
## 8          B    1
## 9          B    1
## 10         B    1
## 11         B    1

答案 5 :(得分:4)

tstrsplit()中引入了新功能data.table v1.9.5t代表转置。它是使用strsplit()拆分字符向量然后转置的结果。

# dummy data
library(data.table)
dt <- data.table(var = c(rep("A1", 4), rep("A2", 4), rep("B1", 4)))

使用tstrsplit()

dt[, tstrsplit(var, "")]

    V1 V2
 1:  A  1
 2:  A  1
 3:  A  1
 4:  A  1
 5:  A  2
 6:  A  2
 7:  A  2
 8:  A  2
 9:  B  1
10:  B  1
11:  B  1
12:  B  1

是的,这很容易。 : - )

答案 6 :(得分:3)

您可以使用substring()创建向量,然后使用data.frame函数将它们连接起来。

yyy<-c("A1", "A1", "A1", "A1", "A2", "A2", "A2", "A2", "B1", "B1", "B1", "B1")

treatment<-substring(yyy, 1,1)

time<-as.numeric(substring(yyy,2,2))

data.frame(treatment,time)

答案 7 :(得分:2)

您可以使用strsplit

df <- t(data.frame(strsplit(variable, "")))
rownames(df) <- NULL
colnames(df) <- c("treatment" , "time" )
df
      treatment time
 [1,] "A"       "1" 
 [2,] "A"       "1" 
 [3,] "A"       "1" 
 [4,] "A"       "1" 
 [5,] "A"       "2" 
 [6,] "A"       "2" 
 [7,] "A"       "2" 
 [8,] "A"       "2" 
 [9,] "B"       "1" 
[10,] "B"       "1" 
[11,] "B"       "1" 
[12,] "B"       "1" 

您可以使用t而不是rbind,然后强制使用data.frame,如下所示:

setNames(as.data.frame(do.call(rbind, strsplit(variable, ""))), 
         c("Treatment", "Time"))
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# 6          A    2
# 7          A    2
# 8          B    1
# 9          B    1
# 10         B    1
# 11         B    1

答案 8 :(得分:1)

基于@Justin的评论我建议(使用v <- c("A1", "B2")):

> t(sapply(strsplit(v, ''), '[', c(1, 2)))
     [,1] [,2]
[1,] "A"  "1" 
[2,] "B"  "2" 

'''后面的向量选择分割向量中的项目。所以我只拆分一次,保留两个项目。如果你想保留每件物品,也许这更容易:

t(sapply(strsplit(v, ''), identity))