我的网址如下:
http://www.example.com/blah/prod/4/x/blah.html
现在,如果此页面包含子页面,它将如下所示:
http://www.example.com/blah/prod/4_2343/x/blah.html
即。在/ prod / 4之后会有一个下划线而不是另一个数字。
如果这个页面有子页面,那么它将是:
http://www.example.com/blah/prod/4_2343_234/x/blah.html
我需要获取我放的所有文字???以下
/ PROD / ??????? / X / blah.html
我该怎么做?
答案 0 :(得分:3)
例如像这样。一个与模式prod / ??? / x / blah匹配的正则表达式,其中???是由数字和下划线组成的任何字符串:
import re
pattern = re.compile('prod/([\d_]+)/x/blah')
query = "http://www.example.com/blah/prod/4_2343_234/x/blah.html"
result = pattern.search(query).group(1)
print result
答案 1 :(得分:0)
import urlparse
url = 'http://www.example.com/blah/prod/4_2343_234/x/blah.html'
urlparse.urlsplit(url).path.split('/')[3]
# returns '4_2343_234'