应用错误收集

一般来说FAQ，速度在很大程度上取决于主机名和礼貌设置的多样性。在你的情况下，主机名不缺，所以这不是限制。

使用ES作为后端，瓶颈往往是spouts中的查询时间以及段的合并。随着爬行量的增加，这些需要更长时间。您可以通过多种方式优化内容，例如：使用AggregationSpouts采样。为ES提供大量RAM将有所帮助，因此使用SSD也是如此。您可以调整各种参数，但说实话，单个服务器上每小时1M就听起来非常雄心勃勃，ES作为后端。您抓取的速度越快，发现的网址越多，索引就越大。

您是打算重新访问网址还是一次性抓取？

您可以通过电子邮件与我联系吗？我想讨论这个问题，因为它与我目前正在做的一些工作有关（而且我总是对人们用SC做什么感到好奇）。感谢。

每小时爬行1M的资源

1 个答案: