使用re.match的Python挂起了长文本

时间:2013-05-16 07:05:53

标签: python regex

我有一个包含域列表的文本文件,我想使用python正则表达式来匹配域和任何子域。

示例域文件

admin.happy.com
nothappy.com

我有以下正则表达式:

main_domain = 'happy.com'
mydomains = open('domains.txt','r').read().replace('\n',',')
matchobj = re.match(r'^(.*\.)*%s$' % main_domain,mydomains)

该代码适用于短文本,但当我的域文件有100多个条目时,它会挂起并冻结。

有没有办法可以优化正则表达式来处理文本文件中的内容?

2 个答案:

答案 0 :(得分:5)

(.*\.)*最有可能导致可怕的回溯。如果文件每行包含一个域,则最简单的修复是在每行执行正则表达式而不是一次执行整个文件:

main_domain = 'happy.com'
for line in open('domains.txt','r')):
    matchobj = re.match(r'^(.*\.)*%s$' % main_domain, line.strip())
    # do something with matchobj

如果您的文件中没有包含您发布格式的域名的内容,您甚至可以简化这一点,而不是使用正则表达式:

subdomains = []
for line in open('domains.txt','r')):
    line = line.strip()
    if line.endswith(main_domain):
        subdomains.append(line[:-len(main_domain)])

答案 1 :(得分:0)

为了避免灾难性的回溯,你可以简化正则表达式:

import re

with open("domains.txt") as file:
    text = file.read()
main_domain = "happy.com"
subdomains = re.findall(r"^(.+)\.%s$" % re.escape(main_domain), text, re.M)

如果您还想匹配主域:(r"^(?:(.+)\.)?%s$"