如何将与正则表达式匹配的所有字符串放入Python的列表中?

时间:2012-04-25 05:50:03

标签: python regex list date

所以在我的Python脚本中,我打开一个文本文件,其中包含“1991年1月26日”格式的日期

这是我的正则表达式:

pattern = """
(?:(September|April|June|November),\ (0?[1-9]|[12]\d|30),\ ((?:19|20)\d\d))#Months   with 30 days
|(?:(January|March|May|July|August|October|December),\ (0?[1-9]|[12]\d|3[01]),\ ((?:19|20)\d\d))#Months with 31 days
|(?:February, (?:(?:(0?[1-9]|1\d|2[0-8]),\ ((?:19|20)\d\d))|(?:(29),\ ((?:(?:19|20)(?:04|08|12|16|20|24|28|32|36|40|44|48|52|56|60|64|68|72|76|80|84|88|92|96))|2000))))#February with 28 days or 29 with a leap year
"""

r = re.compile(pattern, re.VERBOSE)

此正则表达式应与闰年2月29日的任何实际日期相匹配。

我遇到的问题是找出一种方法来浏览我打开的文本文件并将所有匹配的日期放入列表中。我尝试过使用.match,.search,.split和其他的但我没有运气。有没有办法将所有匹配作为字符串放入列表中,以便我可以轻松地将列表与另一个匹配,并查找两个列表中的所有日期?基本上我想要一个看起来像

的列表

[“1990年1月1日”,“2012年2月29日”,“1945年12月25日”,....]

另外,如果我的正则表达式是正确的,请告诉我。我从答案中修改了我的另一个问题,我不确定我是否正确,因为我无法看到我的文本文件中的日期是否匹配。

3 个答案:

答案 0 :(得分:3)

您在所尝试的事项列表中未提及re.findall()。这会为您提供所有正则表达式匹配的列表。

但是,您需要使用所有非捕获组(?:...),否则您将获得所有匹配组(...)的列表。因此,我建议

pattern = """
    (?:September|April|June|November)
    ,[ ] 
    (?:0?[1-9]|[12]\d|30)
    ,[ ]
    (?:19|20)\d\d # Months with 30 days

    |

    (?:January|March|May|July|August|October|December)
    ,[ ] 
    (?:0?[1-9]|[12]\d|3[01])
    ,[ ] 
    (?:19|20)\d\d # Months with 31 days

    |

    February
    ,[ ] 
    (?:
     (?:0?[1-9]|1\d|2[0-8])
     ,[ ] 
     (?:19|20)\d\d
    |
     29
     ,[ ] 
     (?:
      (?:19|20)
      (?:04|08|12|16|20|24|28|32|36|40|44|48|
         52|56|60|64|68|72|76|80|84|88|92|96)
     |
      2000
     )
    ) # February with 28 days or 29 with a leap year"""

但你真的需要验证日期的正确性吗?您是否希望February, 31, 2000这样的错误日期出现在您的数据中?如果没有,你可以极大地简化你的正则表达式。或者至少委托日期验证到日期解析函数,这个函数比一个可怕的正则表达式更适合这个任务。

例如:

pattern = """
    (?:January|February|March|April|May|June|
       July|August|September|October|November|December)
    ,[ ]
    [0-3]?\d
    ,[ ]
    (?:19|20)\d\d
"""

January, 0, 1999February, 31, 2000等无意义相符,但这真的很重要吗?

答案 1 :(得分:1)

您可以使用简单的正则表达式进行预处理,并使用datetime.strptime()函数验证日期:

import re
from datetime import datetime

def extract_date_strings(text):
    return filter(valid_date, re.findall(r"[A-Z][a-z]+, \d\d?, \d{4}", text))

def valid_date(datestr):
    try:
        return datetime.strptime(datestr, "%B, %d, %Y") #note: locale dependent
    except ValueError: 
        return None

您可以使用此代码将结果与您的代码进行比较以进行测试。

实施例

print extract_date_strings('''"January, 1, 1990", "February, 29, 2012",
     "December, 25, 1945"
     May, 40, 1945 Not a Month, 20, 1945
     February, 29, 2000 February, 29, 1900
     May, 1, 199
     ''')

输出

['January, 1, 1990', 'February, 29, 2012', 'December, 25, 1945', 
 'February, 29, 2000']

答案 2 :(得分:0)

随机沉思:

如果您需要询问您的正则表达式是否正确,那就太复杂了。

re.VERBOSE的想法是让你能够使你的正则表达式清晰,而不是附加任何隐藏的明显注释。如果你看到SO水平滚动条,你的guff太长了。

如果findall不存在,您可以编写一个循环,使用search找到下一个匹配项,match_object.end()用于pos arg的{ {1}}:

search

您确定月份名称后应该有逗号吗?