Question

我正在尝试使用R中的正则表达式将字符串向量分解为多个变量，最好使用tidyr :: extract命令以dplyr-tidyr方式。对于矢量波纹中的电阻：

sasdic <- data.frame(a=c(
  '@1   ANO_CENSO   5.  /*Ano do Censo*/',
  '@71  TP_SEXO $Char1. /*Sexo*/',
  '@72  TP_COR_RACA $Char1. /*Cor/raça*/',
  '@74  FK_COD_PAIS_ORIGEM  4.  /*Código País de origem*/' ))

我想要：

转到变量“int_pos”
由下划线连接的变量名称（[a-zA-Z _] +）转到变量“var_name”
要转到var“x”的第二个数字或术语$ Char1（可能是$ Char2等）。我想（[0-9] + | $ Char [0-9] +）可以选择这个吗？
最后，“/ * ... /”之间的任何内容都要转到变量“label”（不知道正则表达式）。所有其他中间字符（空格，“。”，“/”，“”应该被忽视）

这将是结果

d <- data.frame(int_pos=c(1,72,72,74),
                var_name=c('ANO_CENSO','TP_SEXO','TP_COR_RACA','FK_COD_PAIS_ORIGEM'),
                x=c('5','Chart1','$Char1','4'),
                label=c('Ano do Censo','Sexo','Cor/raça','Código País de origem') )

我试着为此构建一个正则表达式。这是我到目前为止所得到的：

sasdic %>% extract(a, c('int_pos','var_name','x','label'), 
                   "([0-9]+)([a-zA-Z_]+)([0-9]+|$Char[0-9]+)(something to get the label") 
             -> d

正则表达式上方不完整。另外，我不知道如何在extract命令语法中明确表达，要恢复的部分是什么以及要省略哪些部分。

Answer 1

在使用的正则表达式中，我们再匹配一个标点字符（[[:punct:]]+），即@，然后捕获数字部分（(\\d+) - 这将是我们感兴趣的第一列），然后是一个或多个空格（\\s+），接着是第二个捕获组（\\S+ - 一个或多个非空白字符，即第一行的“ANO_CENSO”），然后是按空格（\\s+），然后我们捕获第三组（([[:alum:]$]+) - 即包含字母数字和$的一个或多个字符，以匹配$Char1），接下来我们匹配一个或多个不是字母的字符（[^A-Za-z]+ - 这应该摆脱空间和*），最后一部分我们捕获一个或多个不是{{1的字符（*。

([^*]+)

Answer 2

这是另一种选择，但它使用data.table包而不是tidyr：

library(data.table)
setDT(sasdic)

# split label
sasdic[, c("V1","label") := tstrsplit(a, "/\\*|\\*/")]                   
# remove leading "@", split remaining parts
sasdic[, c("int_pos","var_name","x") := tstrsplit(gsub("^@","",V1)," +")]
# remove unneeded columns
sasdic[, c("a","V1") := NULL]                                            

sasdic

#                    label int_pos           var_name       x
# 1:          Ano do Censo       1          ANO_CENSO      5.
# 2:                  Sexo      71            TP_SEXO $Char1.
# 3:              Cor/raça      72        TP_COR_RACA $Char1.
# 4: Código País de origem      74 FK_COD_PAIS_ORIGEM      4.

这假设“剩余部分”（除标签外）是空格分隔的。

这也可以在一个区块内完成（这就是我要做的）：

sasdic[, c("a","label","int_pos","var_name","x") := {
  x   = tstrsplit(a, "/\\*|\\*/")
  x1s = tstrsplit(gsub("^@","",x[[1]])," +")
  c(list(NULL), x1s, x[2])
}]

Answer 3

您可以使用软件包 unglue ：

library(unglue)
unglue_unnest(sasdic, a, "@{int_pos}{=\\s+}{varname}{=\\s+}{x}.{=\\s+}/*{label}*/")
#>   int_pos            varname      x                       label
#> 1       1          ANO_CENSO      5                Ano do Censo
#> 2      71            TP_SEXO $Char1                        Sexo
#> 3      72        TP_COR_RACA $Char1                 Cor/ra<e7>a
#> 4      74 FK_COD_PAIS_ORIGEM      4 C<f3>digo Pa<ed>s de origem

使用tidyr :: extract regex将字符串分成几列

3 个答案: