Question

我有一个使用特定网址的代码：

url = 'https://www.site.com.br/categoria-produto/category/page/3/? 
gclid=Cjkdksjkcm35522'

last_page = url
if last_page.split("page")[1]:
    t = last_page.split("page")[1]
    print(last_page)

向我返回列表，

但是取决于URL的形式的列表可能具有/ 3 /或/ 23 /的值，因为我无法知道这两个条之间的值，即一个或两个位置，甚至三个职位。我认为的唯一方法是使用正则表达式，但我不知道如何组装该表达式。

详细信息：如果我尝试获取打印位置（last_page [1：4]），并且在两者之间仅保留小数点//，则会获得小节。

Answer 1

如果您只是想获取页码，则此模式应该可以解决问题。

url = 'https://www.site.com.br/categoria-produto/category/page/3/?gclid=Cjkdksjkcm35522'
pg_num = re.search(r'page/([0-9]+)/', url).group(1)
# pg_num = '3'

正则表达式以获取两个小节之间的数字

1 个答案: