每小时爬行1M的资源

时间:2018-01-12 09:14:44

标签: web-crawler stormcrawler

我正在寻找关于我应该将多少资源(主要是CPU和RAM)专用于我的抓取工具的指示,以便能够平滑地每小时抓取~10页。我在一个节点上运行所有内容并使用ES来保持持久性。我在1M域内进行递归爬行。 谢谢!

1 个答案:

答案 0 :(得分:0)

一般来说FAQ,速度在很大程度上取决于主机名和礼貌设置的多样性。在你的情况下,主机名不缺,所以这不是限制。

使用ES作为后端,瓶颈往往是spouts中的查询时间以及段的合并。随着爬行量的增加,这些需要更长时间。您可以通过多种方式优化内容,例如:使用AggregationSpouts采样。为ES提供大量RAM将有所帮助,因此使用SSD也是如此。您可以调整各种参数,但说实话,单个服务器上每小时1M就听起来非常雄心勃勃,ES作为后端。您抓取的速度越快,发现的网址越多,索引就越大。

您是打算重新访问网址还是一次性抓取?

您可以通过电子邮件与我联系吗?我想讨论这个问题,因为它与我目前正在做的一些工作有关(而且我总是对人们用SC做什么感到好奇)。感谢。