正则表达式,用于查找包含空格和标点符号的精确匹配

时间:2017-09-01 12:06:41

标签: r regex regex-negation stringr

我正在浏览一个包含文本值(名称)的数据集,其格式如下:

M.Joan (13-2)  
A.Alfred (20-13)  
F.O'Neil (12-231)  
D.Dan Fun (23-3)
T.Collins (51-82) J.Maddon (12-31)

有些字符串中有两个名称,如

 M.Joan (13-2) A.Alfred (20-13)

我只想从字符串中提取名称。 有些名称很容易提取,因为它们没有空格或任何东西。 然而有些人很难,因为他们有一个像上一个一样的空间。

name_pattern = "[A-Z][.][^ (]{1,}"
base <- str_extract_all(baseball1$Managers, name_pattern)

当我使用此代码提取名称时,即使对于带有空格或标点符号的名称,它也能正常工作。但是,提取的名称最后有一个空格。我想知道我是否能找到“(”,空格和括号的确切模式。

输出:

[[1]]
[1] "Z.Taylor "

[[2]]
[1] "Z.Taylor "

[[3]]
[1] "Z.Taylor "

[[4]]
[1] "Z.Taylor "

[[5]]
[1] "Y.Berra "

[[6]]
[1] "Y.Berra "

1 个答案:

答案 0 :(得分:2)

您可以使用

x <- c("M.Joan (13-2) ", "A.Alfred (20-13)", "F.O'Neil (12-231)", "D.Dan Fun (23-3)", "T.Collins (51-82) J.Maddon (12-31)", "T.Hillman (12-34) and N.Yost (23-45)")
regmatches(x, gregexpr("\\p{Lu}.*?(?=\\s*\\()", x, perl=TRUE))

请参阅regex demo

str_extract_all版本:

str_extract_all(baseball1$Managers, "\\p{Lu}.*?(?=\\s*\\()")

请参阅regex demo

匹配

  • \p{Lu} - 大写字母
  • .*? - 除了换行符之外的任何字符,尽可能少,直到第一次出现(但不包括在匹配中,因为(?=...)是一个非消费构造)。 ...
  • (?=\\s*\\() - 在当前位置右侧的正面预测,需要存在:
    • \\s* - 0+空白字符
    • \\( - 文字(