我有一个使用特定网址的代码:
url = 'https://www.site.com.br/categoria-produto/category/page/3/?
gclid=Cjkdksjkcm35522'
last_page = url
if last_page.split("page")[1]:
t = last_page.split("page")[1]
print(last_page)
向我返回列表,
但是取决于URL的形式的列表可能具有/ 3 /或/ 23 /的值,因为我无法知道这两个条之间的值,即一个或两个位置,甚至三个职位。我认为的唯一方法是使用正则表达式,但我不知道如何组装该表达式。
详细信息:如果我尝试获取打印位置(last_page [1:4]),并且在两者之间仅保留小数点//,则会获得小节。
答案 0 :(得分:1)
如果您只是想获取页码,则此模式应该可以解决问题。
url = 'https://www.site.com.br/categoria-produto/category/page/3/?gclid=Cjkdksjkcm35522'
pg_num = re.search(r'page/([0-9]+)/', url).group(1)
# pg_num = '3'