我想写一个正则表达式,使我可以提取使用相同网址开始的页面。
例如:我有以下网址
https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64
并且只希望以:开头的网址:
https://www.afp.com/fr/infos/334/
这样我就可以拥有:
https://www.afp.com/fr/infos/334/le barça-est-gagnant
https://www.afp.com/fr/infos/334/mort au Zimbabwe
https://www.afp.com/fr/infos/334/le président français
所以我尝试了
https://www.afp.com/fr/infos/334/*
https://www.afp.com/fr/infos/334/[^abc]*
这是行不通的,我必须将正则表达式放入进行抓取的软件中,该软件是用python编写的
答案 0 :(得分:4)
您应该像这样使用str.startswith()
if url.startswith('https://www.afp.com/fr/infos/334/'):
# do stuff with url
答案 1 :(得分:3)
我只会使用类似的东西:
import re
list = []
myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64"
if "https://www.afp.com/fr/infos/334/" in myStr:
list.append(myStr)
或像推荐其他评论者一样使用url.startswith()。