搜索引擎机器人抓取网页并下载他们去的每个页面进行分析,对吗?
他们究竟如何下载页面?他们以什么方式存储页面?
我在问,因为我想对几个网页进行分析。我可以通过转到该地址来刮取页面,但是将页面下载到我的计算机并从那里开始工作会不会更有意义吗?
答案 0 :(得分:8)
wget --mirror
答案 1 :(得分:7)
尝试HTTrack
关于他们这样做的方式:
索引从指定的起点(如果您愿意,可以是入口)开始。从那里开始,蜘蛛递归地跟踪所有超链接,直到给定的深度。
搜索引擎蜘蛛也像this一样工作,但有很多同时爬行,还有其他因素可以计算。例如,Google中新近创建的帖子将非常快速地被谷歌选中,但是即使在几天之后,也会在低流量网站上获取更新。
答案 2 :(得分:2)
您可以使用Firefox(或firebug)和Chrome中内置的调试工具来检查页面的工作方式。至于直接下载它们,我不确定。您可以尝试在浏览器中查看页面源,然后复制并粘贴代码。