应用错误收集

从Web服务器获取某些.html文件

时间：2010-01-19 19:37:16

标签： python urllib2

我想从网络服务器获取某些.html文件。我的目的是从文件名上有“metallica”字样的网站（http://www.thetabworld.com/）中获取.html文件。怎么可能使用python？我听说过urllib2，但作为一个python noob，我对如何使用它没有任何想法。

2 个答案:

答案 0 :(得分：1)

您需要将urllib2与HTML解析器（例如lxml或BeautifulSoup）一起使用，以便从检索到的网页中提取链接以便抓取网站。

答案 1 :(得分：1)

“我听说过urllib2但是作为一个 python noob，我没有丝毫想法如何使用它。“

如果您不知道如何使用urllib2，那么阅读一些文档将是一个良好的开端。

以下是优秀资源（附带示例）：

official python docs for urllib2
urllib2 - the missing manual
urllib2 cookbook
PMOTW - urllib2