解析报纸网站上的URL

时间:2015-08-01 06:33:10

标签: regex python-2.7 beautifulsoup python-requests

我在同一份报纸上有很多网址,每个网址都有一个存放每个作家。

例如:

  
      
  1. http://alhayat.com/Opinion/Zinab-Ghasab.aspx
  2.   
  3. http://alhayat.com/Opinion/Abeer-AlFozan.aspx
  4.   
  5. http://www.alhayat.com/Opinion/Suzan-Mash-hadi.aspx
  6.   
  7. http://www.alhayat.com/Opinion/Thuraya-Al-Shahri.aspx
  8.   
  9. http://www.alhayat.com/Opinion/Badria-Al-Besher.aspx
  10.   

有人可以帮我写一个能产生所有作家网址的正则表达式吗?

谢谢!

2 个答案:

答案 0 :(得分:0)

要获得Zinab-Ghasab.aspx,您不需要正则表达式。

只需遍历所有这些网址并使用

print s[s.rfind("/")+1:]

请参阅sample demo

正则表达式看起来像

print re.findall(r"/([^/]+)\.aspx", input)

它将从没有.aspx扩展名的输入中获取所有值。

答案 1 :(得分:0)

您可以在“重新”模块中使用 findall()方法。

假设您正在阅读文件中的内容

  • import re
  • fp = open(“file_name”,“r”)
  • contents = fp.read()
  • writer_urls = re.findall(“https?://.+.com/.+/(。*)。aspx”,内容)
  • fp.close()

现在,writer_urls列表中包含所有必需的URL。