使用正则表达式提取文本

时间:2017-11-10 14:35:37

标签: r regex

我想在“主席”一词和最后一段“。”之间提取文字。在案文中,包括“主席”和“。”。我有以下字符向量:     “主席大量的文字。”

“主席”和“。”在文中多次提到,我只想在第一次使用“CHAIRMAN”和最后一次使用“。”之间提取文本。用来。我想使用正则表达式。

感谢。

2 个答案:

答案 0 :(得分:2)

您可以使用sub

执行此操作
TEXT = "CHAIRMAN massive amount of text."
sub(".*?(CHAIRMAN.*\\.).*", "\\1", TEXT)
[1] "CHAIRMAN massive amount of text."

答案 1 :(得分:2)

.+.*都贪婪地匹配,因此您可以执行以下操作:

string = "The CHAIRMAN massive amount of text. CHAIRMAN massive amount of text. This is just a place holder"

stringr::str_extract(string, "CHAIRMAN.+\\.")

# [1] "CHAIRMAN massive amount of text. CHAIRMAN massive amount of text."