从动态网址获取价值

时间:2011-02-09 19:46:10

标签: python regex

我的网址如下:

http://www.example.com/blah/prod/4/x/blah.html

现在,如果此页面包含子页面,它将如下所示:

http://www.example.com/blah/prod/4_2343/x/blah.html

即。在/ prod / 4之后会有一个下划线而不是另一个数字。

如果这个页面有子页面,那么它将是:

http://www.example.com/blah/prod/4_2343_234/x/blah.html

我需要获取我放的所有文字???以下

/ PROD / ??????? / X / blah.html

我该怎么做?

2 个答案:

答案 0 :(得分:3)

例如像这样。一个与模式prod / ??? / x / blah匹配的正则表达式,其中???是由数字和下划线组成的任何字符串:

import re
pattern = re.compile('prod/([\d_]+)/x/blah')
query   = "http://www.example.com/blah/prod/4_2343_234/x/blah.html"
result  = pattern.search(query).group(1)
print result

答案 1 :(得分:0)

import urlparse
url = 'http://www.example.com/blah/prod/4_2343_234/x/blah.html'

urlparse.urlsplit(url).path.split('/')[3]
# returns '4_2343_234'