我有一个字符串数据集,想要提取一个子字符串,包括第一个冒号。之前我在这里发帖询问如何在第一次冒号之后提取部分:Split strings at the first colon下面我列举了一些解决当前问题的尝试。
我知道^[^:]+:
与我想保留的部分匹配,但我无法弄清楚如何提取该部分。
这是一个示例数据集和所需的结果。
my.data <- "here is: some text
here is some more.
even: more text
still more text
this text keeps: going."
my.data2 <- readLines(textConnection(my.data))
desired.result <- "here is:
0
even:
0
this text keeps:"
desired.result2 <- readLines(textConnection(desired.result))
# Here are some of my attempts
# discards line 2 and 4 but does not extract portion from lines 1,3, and 5.
ifelse( my.data2 == gsub("^[^:]+:", "", my.data2), '', my.data2)
# returns the portion I do not want rather than the portion I do want
sub("^[^:]+:", "\\1", my.data2, perl=TRUE)
# returns an entire line if it contains a colon
grep("^[^:]+:", my.data2, value=TRUE)
# identifies which rows contain a match
regexpr("^[^:]+:", my.data2)
# my attempt at anchoring the right end instead of the left end
regexpr("[^:]+:$", my.data2)
这个早先的问题涉及返回匹配的反面。如果我从上面链接的上一个问题的解决方案开始,我还没想出如何在R中实现这个解决方案:Regular Expression Opposite
我最近获得了RegexBuddy来学习正则表达式。这就是我知道^[^:]+:
符合我想要的方式。我只是无法使用该信息来提取匹配项。
我知道stringr
包。也许它可以提供帮助,但我更喜欢基础R的解决方案。
感谢您的任何建议。
答案 0 :(得分:6)
“我知道^ [^:] +:匹配我想要保留的部分,但我无法弄清楚如何提取该部分。”
所以只需将parens包裹起来并在末尾添加“。+ $”并使用带引用的sub
sub("(^[^:]+:).+$", "\\1", vec)
step1 <- sub("^([^:]+:).+$", "\\1", my.data2)
step2 <- ifelse(grepl(":", step1), step1, 0)
step2
#[1] "here is:" "0" "even:" "0"
#[5] "this text keeps:"
目前尚不清楚您是否希望将这些元素作为单独的向量元素与它们粘贴在一起:
> step3 <- paste0(step2, collapse="\n")
> step3
[1] "here is:\n0\neven:\n0\nthis text keeps:"
> cat(step3)
here is:
0
even:
0
this text keeps:
答案 1 :(得分:4)
这似乎产生了你正在寻找的东西(虽然它只返回其中有冒号的行的位数):
grep(":",gsub("(^[^:]+:).*$","\\1",my.data2 ),value=TRUE)
[1] "here is:" "even:" "this text keeps:"
当我输入此内容时,我看到@ DWin的答案也提出了parens并且ifelse
也确实给了你“0
”。
答案 2 :(得分:2)
使用strsplit
的另一种不太优雅的方法:
x <- strsplit(my.data2, ":")
lens <- sapply(x, length)
y <- sapply(x, "[", 1)
y[lens==1] <- "0"