Question

字符串((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))需要的是：

"JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"

也就是说，要找到最里面括号之间的文本，删除紧邻的括号，以便可以组合和提取文本。但这包含不同的级别。不能一次性完成括号的揭示，因为括号中的“否”失去平衡：

str1<-c()
str2<-c()
library(gsubfn)
strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")
repeat {
str1<-unlist(strapply(strr, "((\\(([A-Z])+\\))+)"))
str2<-append(str1, str2)
strr<-gsub("(\\(\\w+\\))", "~\\1~", strr)
strr<-gsub("~\\(|\\)~", "", strr)
if (strr == "") {break}
}

strr
[1] "(VBD(JJCCRBJJINDTJJNNPNNPS"

有一些括号阻止文本组合，这使得它逃脱了正则表达式。我认为解决这个问题的方法是区分最里面的括号（JJ，RB，JJ，DT，JJ，NNP，NNPS，（新鲜弦上的2,4,5,7,8,9,10））和内部括号。因此，当所有最内部的括号逐步被揭开并且文本被组合和提取时，我们将到达整个字符串。有没有正则表达式来做到这一点？或者还有其他方法吗？请帮忙。

Answer 1

这不使用正则表达式。事实上，我不确定正则表达式是否足以解决问题并且解析器是必需的。我利用现有的R代码解析器，而不是在R中创建/定义解析器。这样做会使用一些相当危险的技巧。

基本思想是将字符串转换为可解析的代码，使用列表生成树结构。然后，这个结构被有效地反向修剪（只保留叶子节点向内），并创建每个级别的各种字符串。

一些帮助程序包

library("plotrix")
library("plyr")

您提供的原始字符串

strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")

将此字符串转换为可分析的代码，引用括号内的内容，然后使每组括号调用list。必须在列表项之间插入逗号，但最里面的部分始终是长度为1的列表，因此这不是问题。然后解析代码。

tmp <- gsub("\\(([^\\(\\)]*)\\)",  '("\\1")', strr)
tmp <- gsub("\\(", "list(", tmp)
tmp <- gsub("\\)list", "),list", tmp)
tmp <- eval(parse(text=tmp))

此时，tmp看起来像

> str(tmp)
List of 3
 $ :List of 1
  ..$ : chr "VBD"
 $ :List of 3
  ..$ :List of 1
  .. ..$ :List of 1
  .. .. ..$ : chr "JJ"
  ..$ :List of 1
  .. ..$ : chr "CC"
  ..$ :List of 2
  .. ..$ :List of 1
  .. .. ..$ : chr "RB"
  .. ..$ :List of 1
  .. .. ..$ : chr "JJ"
 $ :List of 2
  ..$ :List of 1
  .. ..$ : chr "IN"
  ..$ :List of 4
  .. ..$ :List of 1
  .. .. ..$ : chr "DT"
  .. ..$ :List of 1
  .. .. ..$ : chr "JJ"
  .. ..$ :List of 1
  .. .. ..$ : chr "NNP"
  .. ..$ :List of 1
  .. .. ..$ : chr "NNPS"

括号的嵌套现在是列表的嵌套。还需要一些辅助函数。第一个折叠在一定深度以下的所有东西，并抛弃高于该深度的任何节点。第二个是粘贴的包装器，用于集体处理列表的元素。

atdepth <- function(l, d) {
  if (d > 0 & !is.list(l)) {
    return(NULL)
  }
  if (d == 0) {
    return(unlist(l))
  }
  if (is.list(l)) {
    llply(l, atdepth, d-1)
  }
}

pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}

创建一个列表，其中每个元素都是折叠到特定深度的树结构。

down <- llply(1:listDepth(tmp), atdepth, l=tmp)

在此列表上向后迭代，将叶集粘贴在一起。向后“向上”（倒塌）树木。这样做会产生一些空白字符串（其中有一个更高的叶子），所以这些被剪掉了。

out <- if (length(down) > 2) {
  c(unlist(llply(length(down):3, function(i) {
    unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
  })), unlist(pastelist(down[[2]]))) 
} else {
  unlist(pastelist(down[[2]]))
}
out <- out[out != ""]

结果就是我的想法：

> out
[1] "JJ"                       "RBJJ"                    
[3] "DTJJNNPNNPS"              "JJCCRBJJ"                
[5] "INDTJJNNPNNPS"            "VBDJJCCRBJJINDTJJNNPNNPS"
> dput(out)
c("JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS", "VBDJJCCRBJJINDTJJNNPNNPS"
)

编辑：

回应有关后续问题的评论：如何使其适应处理一组这些字符串。

解决do-it-multiple-times-for-different-inputs的一般方法是创建一个函数，该函数将单个项目作为输入并返回相关的单个输出。然后使用apply系列函数循环遍历函数。

将之前的所有代码整合到一个函数中：

parsestrr <- function(strr) {
  atdepth <- function(l, d) {
    if (d > 0 & !is.list(l)) {
      return(NULL)
    }
    if (d == 0) {
     return(unlist(l))
    }
    if (is.list(l)) {
      llply(l, atdepth, d-1)
    }
  }

  pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}

  tmp <- gsub("\\(([^\\(\\)]*)\\)",  '("\\1")', strr)
  tmp <- gsub("\\(", "list(", tmp)
  tmp <- gsub("\\)list", "),list", tmp)
  tmp <- eval(parse(text=tmp))
  down <- llply(1:listDepth(tmp), atdepth, l=tmp)
  out <- if (length(down) > 2) {
    c(unlist(llply(length(down):3, function(i) {
      unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
    })), unlist(pastelist(down[[2]]))) 
  } else {
    unlist(pastelist(down[[2]]))
  }
  out[out != ""]
}

现在给出一个要处理的字符串向量，例如：

strrs<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))",
         "((VBD)(((JJ))(CC)((RB)(XX)(JJ)))((IN)(BB)((DT)(JJ)(NNP)(NNPS))))",
         "((VBD)(((JJ)(QQ))(CC)((RB)(JJ)))((IN)((TQR)(JJ)(NNPS))))")

您可以使用

处理所有这些内容

llply(strr, parsestrr)

返回

[[1]]
[1] "JJ"                       "RBJJ"                    
[3] "DTJJNNPNNPS"              "JJCCRBJJ"                
[5] "INDTJJNNPNNPS"            "VBDJJCCRBJJINDTJJNNPNNPS"

[[2]]
[1] "JJ"                           "RBXXJJ"                      
[3] "DTJJNNPNNPS"                  "JJCCRBXXJJ"                  
[5] "INBBDTJJNNPNNPS"              "VBDJJCCRBXXJJINBBDTJJNNPNNPS"

[[3]]
[1] "JJQQ"                     "RBJJ"                    
[3] "TQRJJNNPS"                "JJQQCCRBJJ"              
[5] "INTQRJJNNPS"              "VBDJJQQCCRBJJINTQRJJNNPS"

Answer 2

我不确定你是否只想建立一个平衡文本的树形结构或者，为什么要在最内层删除包含的括号。

使用您的示例，如果要分阶段完成，则必须首先确定最内层。然后在递归传递的后续级别中删除括号。

这当然需要一种方法来做平衡的文本。一些正则表达式引擎可以做到这一点如果您使用的引擎不支持此功能，则必须通过文本处理手动完成。

我碰巧有一个正则表达式分析程序。我将你的初始字符串抽入其中，然后通过组级别对其进行可视化格式化。每次传递，我只是剥离了模拟递归的内部父母。

也许这可以帮助您想象出需要做什么。

 ## Pass 0
 ## ---------
 (
      ( VBD )
      (
           (
                ( JJ )
           )
           ( CC )
           (
                ( RB )
                ( JJ )
           )
      )
      (
           ( IN )
           (
                ( DT )
                ( JJ )
                ( NNP )
                ( NNPS )
           )
      )
 )

 ## Pass 1
 ## ---------
 (
      ( VBD )
      (
           ( JJ )
           ( CC )
           ( RB JJ )
      )
      (
           ( IN )
           ( DT JJ NNP NNPS )
      )
 )

 ## Pass 2
 ## ---------
 (
      ( VBD )
      ( JJ CC RB JJ )
      ( IN DT JJ NNP NNPS )
 )

 ## Pass 3
 ## ---------
 ( VBD JJ CC RB JJ IN DT JJ NNP NNPS )

 ## Pass 4
 ## ---------
 VBD JJ CC RB JJ IN DT JJ NNP NNPS

Answer 3

你真的不需要在这里考虑匹配括号......听起来你只想递归地匹配模式[()]([^()]*)[()]。

也就是说，“匹配不包含( )且由(或)分隔的内容”

R：如何使用正则表达式区分内部和最内部括号

3 个答案: