你如何下载一个网站?

时间:2010-12-13 23:25:45

标签: screen-scraping web-crawler

搜索引擎机器人抓取网页并下载他们去的每个页面进行分析,对吗?

他们究竟如何下载页面?他们以什么方式存储页面?

我在问,因为我想对几个网页进行分析。我可以通过转到该地址来刮取页​​面,但是将页面下载到我的计算机并从那里开始工作会不会更有意义吗?

3 个答案:

答案 0 :(得分:8)

wget --mirror

答案 1 :(得分:7)

尝试HTTrack

关于他们这样做的方式:
索引从指定的起点(如果您愿意,可以是入口)开始。从那里开始,蜘蛛递归地跟踪所有超链接,直到给定的深度。

搜索引擎蜘蛛也像this一样工作,但有很多同时爬行,还有其他因素可以计算。例如,Google中新近创建的帖子将非常快速地被谷歌选中,但是即使在几天之后,也会在低流量网站上获取更新。

答案 2 :(得分:2)

您可以使用Firefox(或firebug)和Chrome中内置的调试工具来检查页面的工作方式。至于直接下载它们,我不确定。您可以尝试在浏览器中查看页面源,然后复制并粘贴代码。