Question

我在同一份报纸上有很多网址，每个网址都有一个存放每个作家。

例如：

http://alhayat.com/Opinion/Zinab-Ghasab.aspx

http://alhayat.com/Opinion/Abeer-AlFozan.aspx

http://www.alhayat.com/Opinion/Suzan-Mash-hadi.aspx

http://www.alhayat.com/Opinion/Thuraya-Al-Shahri.aspx

http://www.alhayat.com/Opinion/Badria-Al-Besher.aspx

有人可以帮我写一个能产生所有作家网址的正则表达式吗？

谢谢！

Answer 1

要获得Zinab-Ghasab.aspx，您不需要正则表达式。

只需遍历所有这些网址并使用

print s[s.rfind("/")+1:]

请参阅sample demo。

正则表达式看起来像

print re.findall(r"/([^/]+)\.aspx", input)

它将从没有.aspx扩展名的输入中获取所有值。

Answer 2

您可以在“重新”模块中使用 findall（）方法。

假设您正在阅读文件中的内容

import re
fp = open（“file_name”，“r”）
contents = fp.read（）
writer_urls = re.findall（“https？：//.+.com/.+/（。*）。aspx”，内容）
fp.close（）

现在，writer_urls列表中包含所有必需的URL。

解析报纸网站上的URL

2 个答案: