正则表达式以提取使用相同网址开始的页面

时间:2019-04-17 22:18:45

标签: python regex url scrapy web-crawler

我想写一个正则表达式,使我可以提取使用相同网址开始的页面。

例如:我有以下网址


https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64

并且只希望以:开头的网址:

https://www.afp.com/fr/infos/334/

这样我就可以拥有:

https://www.afp.com/fr/infos/334/le barça-est-gagnant
https://www.afp.com/fr/infos/334/mort au Zimbabwe
https://www.afp.com/fr/infos/334/le président français


所以我尝试了

https://www.afp.com/fr/infos/334/*
https://www.afp.com/fr/infos/334/[^abc]*

这是行不通的,我必须将正则表达式放入进行抓取的软件中,该软件是用python编写的

2 个答案:

答案 0 :(得分:4)

您应该像这样使用str.startswith()

if url.startswith('https://www.afp.com/fr/infos/334/'):
    # do stuff with url

答案 1 :(得分:3)

我只会使用类似的东西:

import re

list = []

myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64"
if "https://www.afp.com/fr/infos/334/" in myStr:
    list.append(myStr)

或像推荐其他评论者一样使用url.startswith()。