字符串((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))
需要的是:
"JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"
也就是说,要找到最里面括号之间的文本,删除紧邻的括号,以便可以组合和提取文本。但这包含不同的级别。不能一次性完成括号的揭示,因为括号中的“否”失去平衡:
str1<-c()
str2<-c()
library(gsubfn)
strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")
repeat {
str1<-unlist(strapply(strr, "((\\(([A-Z])+\\))+)"))
str2<-append(str1, str2)
strr<-gsub("(\\(\\w+\\))", "~\\1~", strr)
strr<-gsub("~\\(|\\)~", "", strr)
if (strr == "") {break}
}
strr
[1] "(VBD(JJCCRBJJINDTJJNNPNNPS"
有一些括号阻止文本组合,这使得它逃脱了正则表达式。我认为解决这个问题的方法是区分最里面的括号(JJ,RB,JJ,DT,JJ,NNP,NNPS,(新鲜弦上的2,4,5,7,8,9,10))和内部括号。因此,当所有最内部的括号逐步被揭开并且文本被组合和提取时,我们将到达整个字符串。有没有正则表达式来做到这一点?或者还有其他方法吗?请帮忙。
答案 0 :(得分:4)
这不使用正则表达式。事实上,我不确定正则表达式是否足以解决问题并且解析器是必需的。我利用现有的R
代码解析器,而不是在R中创建/定义解析器。这样做会使用一些相当危险的技巧。
基本思想是将字符串转换为可解析的代码,使用列表生成树结构。然后,这个结构被有效地反向修剪(只保留叶子节点向内),并创建每个级别的各种字符串。
一些帮助程序包
library("plotrix")
library("plyr")
您提供的原始字符串
strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")
将此字符串转换为可分析的代码,引用括号内的内容,然后使每组括号调用list
。必须在列表项之间插入逗号,但最里面的部分始终是长度为1的列表,因此这不是问题。然后解析代码。
tmp <- gsub("\\(([^\\(\\)]*)\\)", '("\\1")', strr)
tmp <- gsub("\\(", "list(", tmp)
tmp <- gsub("\\)list", "),list", tmp)
tmp <- eval(parse(text=tmp))
此时,tmp
看起来像
> str(tmp)
List of 3
$ :List of 1
..$ : chr "VBD"
$ :List of 3
..$ :List of 1
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
..$ :List of 1
.. ..$ : chr "CC"
..$ :List of 2
.. ..$ :List of 1
.. .. ..$ : chr "RB"
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
$ :List of 2
..$ :List of 1
.. ..$ : chr "IN"
..$ :List of 4
.. ..$ :List of 1
.. .. ..$ : chr "DT"
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
.. ..$ :List of 1
.. .. ..$ : chr "NNP"
.. ..$ :List of 1
.. .. ..$ : chr "NNPS"
括号的嵌套现在是列表的嵌套。还需要一些辅助函数。第一个折叠在一定深度以下的所有东西,并抛弃高于该深度的任何节点。第二个是粘贴的包装器,用于集体处理列表的元素。
atdepth <- function(l, d) {
if (d > 0 & !is.list(l)) {
return(NULL)
}
if (d == 0) {
return(unlist(l))
}
if (is.list(l)) {
llply(l, atdepth, d-1)
}
}
pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}
创建一个列表,其中每个元素都是折叠到特定深度的树结构。
down <- llply(1:listDepth(tmp), atdepth, l=tmp)
在此列表上向后迭代,将叶集粘贴在一起。向后“向上”(倒塌)树木。这样做会产生一些空白字符串(其中有一个更高的叶子),所以这些被剪掉了。
out <- if (length(down) > 2) {
c(unlist(llply(length(down):3, function(i) {
unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
})), unlist(pastelist(down[[2]])))
} else {
unlist(pastelist(down[[2]]))
}
out <- out[out != ""]
结果就是我的想法:
> out
[1] "JJ" "RBJJ"
[3] "DTJJNNPNNPS" "JJCCRBJJ"
[5] "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"
> dput(out)
c("JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS", "VBDJJCCRBJJINDTJJNNPNNPS"
)
编辑:
回应有关后续问题的评论:如何使其适应处理一组这些字符串。
解决do-it-multiple-times-for-different-inputs的一般方法是创建一个函数,该函数将单个项目作为输入并返回相关的单个输出。然后使用apply系列函数循环遍历函数。
将之前的所有代码整合到一个函数中:
parsestrr <- function(strr) {
atdepth <- function(l, d) {
if (d > 0 & !is.list(l)) {
return(NULL)
}
if (d == 0) {
return(unlist(l))
}
if (is.list(l)) {
llply(l, atdepth, d-1)
}
}
pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}
tmp <- gsub("\\(([^\\(\\)]*)\\)", '("\\1")', strr)
tmp <- gsub("\\(", "list(", tmp)
tmp <- gsub("\\)list", "),list", tmp)
tmp <- eval(parse(text=tmp))
down <- llply(1:listDepth(tmp), atdepth, l=tmp)
out <- if (length(down) > 2) {
c(unlist(llply(length(down):3, function(i) {
unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
})), unlist(pastelist(down[[2]])))
} else {
unlist(pastelist(down[[2]]))
}
out[out != ""]
}
现在给出一个要处理的字符串向量,例如:
strrs<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))",
"((VBD)(((JJ))(CC)((RB)(XX)(JJ)))((IN)(BB)((DT)(JJ)(NNP)(NNPS))))",
"((VBD)(((JJ)(QQ))(CC)((RB)(JJ)))((IN)((TQR)(JJ)(NNPS))))")
您可以使用
处理所有这些内容llply(strr, parsestrr)
返回
[[1]]
[1] "JJ" "RBJJ"
[3] "DTJJNNPNNPS" "JJCCRBJJ"
[5] "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"
[[2]]
[1] "JJ" "RBXXJJ"
[3] "DTJJNNPNNPS" "JJCCRBXXJJ"
[5] "INBBDTJJNNPNNPS" "VBDJJCCRBXXJJINBBDTJJNNPNNPS"
[[3]]
[1] "JJQQ" "RBJJ"
[3] "TQRJJNNPS" "JJQQCCRBJJ"
[5] "INTQRJJNNPS" "VBDJJQQCCRBJJINTQRJJNNPS"
答案 1 :(得分:1)
我不确定你是否只想建立一个平衡文本的树形结构 或者,为什么要在最内层删除包含的括号。
使用您的示例,如果要分阶段完成,则必须首先确定最内层。然后在递归传递的后续级别中删除括号。
这当然需要一种方法来做平衡的文本。一些正则表达式引擎可以做到这一点 如果您使用的引擎不支持此功能,则必须通过文本处理手动完成。
我碰巧有一个正则表达式分析程序。我将你的初始字符串抽入其中,然后通过组级别对其进行可视化格式化。每次传递,我只是剥离了模拟递归的内部父母。
也许这可以帮助您想象出需要做什么。
## Pass 0
## ---------
(
( VBD )
(
(
( JJ )
)
( CC )
(
( RB )
( JJ )
)
)
(
( IN )
(
( DT )
( JJ )
( NNP )
( NNPS )
)
)
)
## Pass 1
## ---------
(
( VBD )
(
( JJ )
( CC )
( RB JJ )
)
(
( IN )
( DT JJ NNP NNPS )
)
)
## Pass 2
## ---------
(
( VBD )
( JJ CC RB JJ )
( IN DT JJ NNP NNPS )
)
## Pass 3
## ---------
( VBD JJ CC RB JJ IN DT JJ NNP NNPS )
## Pass 4
## ---------
VBD JJ CC RB JJ IN DT JJ NNP NNPS
答案 2 :(得分:0)
你真的不需要在这里考虑匹配括号......听起来你只想递归地匹配模式[()]([^()]*)[()]
。
也就是说,“匹配不包含(
)
且由(
或)
分隔的内容”