什么是良好的爬行速度?

时间:2018-03-26 14:38:24

标签: python scrapy web-crawler

我正在抓取网页以创建搜索引擎,并且能够使用Scrapy在1小时内抓取接近9300页的内容。我想知道我还能提高多少价值,以及什么价值被视为“好”的价值。爬行速度。

2 个答案:

答案 0 :(得分:6)

简短答案:创建搜索引擎并没有建议的实际速度。

长答案:

总体而言,爬网速度并不能真正确定您的爬网器是好是坏,甚至不能作为提供给搜索引擎的程序使用。

在多个站点上爬网许多页面时,您也无法谈论爬网速度。爬网速度应仅按每个站点确定,这意味着可以对爬网器进行配置,以便可以更改其在任何特定时间you can see that Google also offers this到达站点的频率。

如果我们谈论的是您提到的当前速度(9300 /小时),则意味着您正在每秒收集约2.5页,这可以说不错,但是如前所述,它不能帮助您确定您的最终目标(创建搜索引擎)。

此外,如果您真的决定使用Scrapy创建一个广泛的抓取工具来创建搜索引擎,则永远不会只使用Scrapy发送1个进程。您需要设置成千上万(甚至更多)的蜘蛛运行来检查以获取所需的更多信息。另外,您还必须设置不同的服务来帮助您维护这些蜘蛛及其在进程之间的行为。对于初学者,我建议检查FronteraScrapyd

答案 1 :(得分:-1)

我不是专家,但我会说你的速度很慢。我刚去谷歌,输入“帽子”这个词,按下回车键:大约650,000,000个结果(0.63秒)。这将很难与之竞争。我想说还有很大的提升空间。