应用错误收集

时间：2010-12-13 23:25:45

标签： screen-scraping web-crawler

搜索引擎机器人抓取网页并下载他们去的每个页面进行分析，对吗？

他们究竟如何下载页面？他们以什么方式存储页面？

我在问，因为我想对几个网页进行分析。我可以通过转到该地址来刮取页面，但是将页面下载到我的计算机并从那里开始工作会不会更有意义吗？

答案 0 :(得分：8)

wget --mirror

答案 1 :(得分：7)

关于他们这样做的方式：
索引从指定的起点（如果您愿意，可以是入口）开始。从那里开始，蜘蛛递归地跟踪所有超链接，直到给定的深度。

搜索引擎蜘蛛也像this一样工作，但有很多同时爬行，还有其他因素可以计算。例如，Google中新近创建的帖子将非常快速地被谷歌选中，但是即使在几天之后，也会在低流量网站上获取更新。

答案 2 :(得分：2)

您可以使用Firefox（或firebug）和Chrome中内置的调试工具来检查页面的工作方式。至于直接下载它们，我不确定。您可以尝试在浏览器中查看页面源，然后复制并粘贴代码。