从Web服务器获取某些.html文件

时间:2010-01-19 19:37:16

标签: python urllib2

我想从网络服务器获取某些.html文件。我的目的是从文件名上有“metallica”字样的网站(http://www.thetabworld.com/)中获取.html文件。怎么可能使用python?我听说过urllib2,但作为一个python noob,我对如何使用它没有任何想法。

2 个答案:

答案 0 :(得分:1)

您需要将urllib2与HTML解析器(例如lxmlBeautifulSoup)一起使用,以便从检索到的网页中提取链接以便抓取网站。

答案 1 :(得分:1)

  

“我听说过urllib2但是作为一个   python noob,我没有丝毫   想法如何使用它。“

如果您不知道如何使用urllib2,那么阅读一些文档将是一个良好的开端。

以下是优秀资源(附带示例):

official python docs for urllib2
urllib2 - the missing manual
urllib2 cookbook
PMOTW - urllib2