Question

我想写一个正则表达式，使我可以提取使用相同网址开始的页面。

例如：我有以下网址


https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64

并且只希望以：开头的网址：

https://www.afp.com/fr/infos/334/

这样我就可以拥有：

https://www.afp.com/fr/infos/334/le barça-est-gagnant
https://www.afp.com/fr/infos/334/mort au Zimbabwe
https://www.afp.com/fr/infos/334/le président français

所以我尝试了

https://www.afp.com/fr/infos/334/*
https://www.afp.com/fr/infos/334/[^abc]*

这是行不通的，我必须将正则表达式放入进行抓取的软件中，该软件是用python编写的

Answer 1

您应该像这样使用str.startswith()

if url.startswith('https://www.afp.com/fr/infos/334/'):
    # do stuff with url

Answer 2

我只会使用类似的东西：

import re

list = []

myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64"
if "https://www.afp.com/fr/infos/334/" in myStr:
    list.append(myStr)

或像推荐其他评论者一样使用url.startswith（）。

正则表达式以提取使用相同网址开始的页面

2 个答案: