R:从字符串中提取数字

时间:2016-10-08 14:23:05

标签: r regex extract

我正在尝试使用R中的包stringi来从字符串中提取数字。字符串的模式是:

1 nomination
2 wins
1 win & 3 nominations
2 wins & 1 nomination
won 1 Oscar. Another 5 wins & 2 nominations

我希望提取每个字符串中的数字。如果只有胜利提名,请将唯一的号码视为获胜/提名。

到目前为止,我尝试了以下内容:

test <- "6 wins & 3 nominations."

str_extract(test, regex="\\w*\\d\\w*")

但是,这只会给出第一个数字,不包括第二个数字。

stri_extract(test, regex="\\w*\\d+wins(\\s*+&+\\s*)(\\d)")给出NA。

以下方式有效,但首先分割字符串,后面跟stri_extract感觉太笨重了:

t <- strsplit(test, "&")  # split the string first
win_num <- stri_extract(t[1], regex="\\d")
nomination_num <- stri_extract(t[2], regex="\\d") # if exists

任何使正则表达式在一行中工作的方法?谢谢!

1 个答案:

答案 0 :(得分:1)

要提取多个数字,请使用str_extract_all返回list输出。

str_extract_all(test, "\\d+")[[1]]