Python - 整个网页的urlretrieve

时间:2012-03-28 15:34:46

标签: python urllib

urllib.urlretrieve('http://page.com', 'page.html')我可以保存索引页面,只保存page.com的索引​​。 urlretrieve是否处理类似于wget -r的东西让我下载整个网页结构以及page.com的所有相关html文件?

此致

1 个答案:

答案 0 :(得分:1)

不直接。

如果您想在整个网站上进行蜘蛛,请查看机械化:http://wwwsearch.sourceforge.net/mechanize/

这样您就可以加载页面并关注其中的链接

类似的东西:

import mechanize
br = mechanize.Browser()
br.open('http://stackoverflow.com')
for link in br.links():
    print(link)
    response = br.follow_link(link)
    html = response.read()
    #save your downloaded page
    br.back()

就目前而言,这只会让你的页面远离起点。但是,您可以轻松地将其调整为覆盖整个网站。

如果您真的只想镜像整个网站,请使用wget。如果你需要做一些聪明的处理(处理javascript,选择性地跟踪链接等),在python中这样做是值得的。