我想从网络服务器获取某些.html文件。我的目的是从文件名上有“metallica”字样的网站(http://www.thetabworld.com/)中获取.html文件。怎么可能使用python?我听说过urllib2,但作为一个python noob,我对如何使用它没有任何想法。
答案 0 :(得分:1)
您需要将urllib2与HTML解析器(例如lxml
或BeautifulSoup
)一起使用,以便从检索到的网页中提取链接以便抓取网站。
答案 1 :(得分:1)
“我听说过urllib2但是作为一个 python noob,我没有丝毫 想法如何使用它。“
如果您不知道如何使用urllib2,那么阅读一些文档将是一个良好的开端。
以下是优秀资源(附带示例):
official python docs for urllib2
urllib2 - the missing manual
urllib2 cookbook
PMOTW - urllib2