我正在寻找关于我应该将多少资源(主要是CPU和RAM)专用于我的抓取工具的指示,以便能够平滑地每小时抓取~10页。我在一个节点上运行所有内容并使用ES来保持持久性。我在1M域内进行递归爬行。 谢谢!
答案 0 :(得分:0)
一般来说FAQ,速度在很大程度上取决于主机名和礼貌设置的多样性。在你的情况下,主机名不缺,所以这不是限制。
使用ES作为后端,瓶颈往往是spouts中的查询时间以及段的合并。随着爬行量的增加,这些需要更长时间。您可以通过多种方式优化内容,例如:使用AggregationSpouts采样。为ES提供大量RAM将有所帮助,因此使用SSD也是如此。您可以调整各种参数,但说实话,单个服务器上每小时1M就听起来非常雄心勃勃,ES作为后端。您抓取的速度越快,发现的网址越多,索引就越大。
您是打算重新访问网址还是一次性抓取?
您可以通过电子邮件与我联系吗?我想讨论这个问题,因为它与我目前正在做的一些工作有关(而且我总是对人们用SC做什么感到好奇)。感谢。