使用python Regex从字符串中提取名称

时间:2019-03-16 06:52:41

标签: python regex python-regex

我一直在尝试从字符串中提取名称,但似乎还没有成功。

代码如下:

string = "555-1239Moe Szyslak(636) 555-0113Burns, C. Montgomery555 -6542Rev. Timothy Lovejoy555 8904Ned Flanders636-555-3226Simpson, Homer5553642Dr. Julius Hibbert"
regex = re.compile(r'([A-Z][a-z]+(?: [A-Z][a-z]\.)? [A-Z][a-z]+)')
print(regex.findall(string))

这是我得到的输出。['Moe Szyslak', 'Timothy Lovejoy', 'Ned Flanders', 'Julius Hibbert']

4 个答案:

答案 0 :(得分:2)

花哨的正则表达式需要时间来编写,并且难以维护。在这种情况下,我倾向于保持简单:

re.findall(r"[^()0-9-]+", string)

输出:

['Moe Szyslak', ' ', 'Burns, C. Montgomery', ' ', 'Rev. Timothy Lovejoy', ' ', 'Ned Flanders', 'Simpson, Homer', 'Dr. Julius Hibbert']

如果空白是一个问题,我会过滤list(filter(str.strip,list))

答案 1 :(得分:1)

众所周知,即使是英文,也很难提取人名。以下正则表达式可以解决您的特定问题,但在其他输入上可能会失败(例如,它不使用破折号捕获名称):

re.findall(r"[A-Z][a-z]+,?\s+(?:[A-Z][a-z]*\.?\s*)?[A-Z][a-z]+", string)
#['Moe Szyslak', 'Burns, C. Montgomery', 'Timothy Lovejoy', 
# 'Ned Flanders', 'Simpson, Homer', 'Julius Hibbert']

并带有标题:

TITLE = r"(?:[A-Z][a-z]*\.\s*)?"
NAME1 = r"[A-Z][a-z]+,?\s+"
MIDDLE_I = r"(?:[A-Z][a-z]*\.?\s*)?"
NAME2 = r"[A-Z][a-z]+"

re.findall(TITLE + NAME1 + MIDDLE_I + NAME2, string)
#['Moe Szyslak', 'Burns, C. Montgomery', 'Rev. Timothy Lovejoy', 
# 'Ned Flanders', 'Simpson, Homer', 'Dr. Julius Hibbert']

请注意,除非您打算重复使用它,否则无需编译正则表达式。

答案 2 :(得分:0)

这是一种使用零宽度环视来隔离每个名称的方法:

string = "555-1239Moe Szyslak(636) 555-0113Burns, C. Montgomery555 -6542Rev. Timothy Lovejoy555 8904Ned Flanders636-555-3226Simpson, Homer5553642Dr. Julius Hibbert"
result = re.findall(r'(?:(?<=^)|(?<=[^A-Za-z.,]))[A-Za-z.,]+(?: [A-Za-z.,]+)*(?:(?=[^A-Za-z.,])|(?=$))', string)

print(result)

['Moe Szyslak', 'Burns, C. Montgomery', 'Rev. Timothy Lovejoy', 'Ned Flanders',
 'Simpson, Homer', 'Dr. Julius Hibbert']

匹配的实际模式是这样的:

[A-Za-z.,]+(?: [A-Za-z.,]+)*

这表示匹配任何大写或小写字母,点或句点,后跟一个空格和一个或多个相同字符,零次或多次。

此外,我们在此模式的左侧和右侧使用以下环顾:

(?:(?<=^)|(?<=[^A-Za-z.,]))
Lookbehind and assert either the start of the string, or a non matching character
(?:(?=[^A-Za-z.,])|(?=$))
Lookahead and asser either the end of the string or a non matching character

答案 3 :(得分:-1)

我会立即提取带有实例性的实例名称实体。使用spacy,您可以依赖预先训练的语言模型,该模型对通用名称和标题具有丰富的知识。

  1. 步骤:设置spacy并下载预先训练的英语语言模型 import spacy
    import en_core_web_sm nlp = en_core_web_sm.load()

  2. 步骤:创建spacy文档 doc = nlp('555-1239Moe Szyslak(636) 555-0113Burns, C. Montgomery555 -6542Rev. Timothy Lovejoy555 8904Ned Flanders636-555-3226Simpson, Homer5553642Dr. Julius Hibbert')

  3. 步骤:获取文档中所有标记为“人”的标记的标签 print([(X.text, X.label_) for X in doc.ents if X.label_ == PERSON])