Question

我的网址如下：

http://www.example.com/blah/prod/4/x/blah.html

现在，如果此页面包含子页面，它将如下所示：

http://www.example.com/blah/prod/4_2343/x/blah.html

即。在/ prod / 4之后会有一个下划线而不是另一个数字。

如果这个页面有子页面，那么它将是：

http://www.example.com/blah/prod/4_2343_234/x/blah.html

我需要获取我放的所有文字???以下

/ PROD / ??????? / X / blah.html

我该怎么做？

Answer 1

例如像这样。一个与模式prod / ??? / x / blah匹配的正则表达式，其中???是由数字和下划线组成的任何字符串：

import re
pattern = re.compile('prod/([\d_]+)/x/blah')
query   = "http://www.example.com/blah/prod/4_2343_234/x/blah.html"
result  = pattern.search(query).group(1)
print result

Answer 2

import urlparse
url = 'http://www.example.com/blah/prod/4_2343_234/x/blah.html'

urlparse.urlsplit(url).path.split('/')[3]
# returns '4_2343_234'

从动态网址获取价值

2 个答案: