Question

我有一些新闻标题，我想提取标题中涉及的公司名称。这是一个例子

headlines = [
    "Chicago Policemen's Annuity & Benefit Fund hired Chicago Equity Partners to manage $50 million in active U.S. smidcap value equity.",
    "Belmont Contributory Retirement System is searching for at least one U.S. small-cap equity manager to run initially up to $5 million.",
    "Phoenix Employees' Deferred Compensation Board will begin a search for an investment consultant before the end of February."    
]

正如您所看到的，这里的模式是感兴趣的公司名称是第一个大写单词链。第二个大写单词链是次要公司。

在我们的示例中，我想返回两个与提取连续大写字母相关的变量。因此，它将回归＆＃34;芝加哥警察的年金＆amp;福利基金＆＃34;，＆＃34;贝尔蒙特供款退休制度＆＃34;和＆＃34;菲尼克斯员工＆＃39;延期赔偿委员会＆＃34;

有没有办法在Python中使用正则表达式进行这种提取？

Answer 1

对于您给出的示例，也许是匹配连续大写单词的选项，直到您遇到空格和小写字符或字符串的结尾。

^(?:[A-Z][^A-Z]+?)+(?= [a-z]|$)

解释

从字符串^
非捕获组(?:
- 匹配大写字符[A-Z]
- 不是一个或多个非贪婪[A-Z]+?
关闭捕获组)+并重复一次或多次
一个积极的前瞻(?=，断言以下是
- 一个空格后跟一个小写字符[a-z]
- |或
- 字符串$
close positive lookahead )

在这种情况下，匹配会停止，直到遇到空格和小写字符，但您可以将字符类扩展为[a-z&]，以便在遇到空格和符号时停止匹配。

Answer 2

只是为了让你朝着正确的方向前进，

第1步：切割字符串（您的分隔符为空格）

步骤2：检查位置0的字符是否大写

步骤3：将子字符串添加/附加到your company name

步骤4：重复步骤2和3，直到第2步失败，然后您拥有公司名称。

有关切片的更多帮助： https://www.pythoncentral.io/cutting-and-slicing-strings-in-python/

Answer 3

此正则表达式将找到标题样式的表达式：

((?:[A-Z][a-z\']+ ?)| & ){2,}(?= \b)

您可以看到完整的测试here

Python RgEx：提取首个连续大写字母

3 个答案: