在R中的符号后提取文本

时间:2016-05-05 12:59:33

标签: regex r text-mining extraction

sample1 = read.csv("pirate.csv")
sample1[,7] 
[1] >>xyz>>hello>>mate 1
[2] >>xyz>>hello>>mate 2
[3] >>xyz>>mate 3
[4] >>xyz>>mate 4
[5] >>xyz>>hello>>mate 5
[6] >>xyz>>hello>>mate 6

我必须提取并创建一个包含最后>>之后所有单词的数组。

怎么做?

另外,我如何从以下字符串中提取(a)o qwerty,(b)mate1和(c)pirate1 in

p= '>>xyz- o qwerty>>hello>>mate1>>sole pirate1'

由于

2 个答案:

答案 0 :(得分:9)

x <- c('>>xyz>>hello>>mate 1', '>>xyz>>hello>>mate 2', '>>xyz>>mate 3', ' >>xyz>>mate 4' ,'>>xyz>>hello>>mate 5')
sub('.*>>', '', x)
#[1] "mate 1" "mate 2" "mate 3" "mate 4" "mate 5"

答案 1 :(得分:3)

假设您已经将这些内容读入R数据框,您可以使用stringr包,如下所示:

library(stringr)
str_extract(df$mystring, '\\S+$')

例如,如果你有这样的字符串:

s <- '>>hello1>>hola1>>ahoy mate1'

你得到:

str_extract(s, '\\S+$')
[1] "mate1"