ManifoldCF和Postgresql抓取150万个文档

时间:2019-02-08 11:02:00

标签: manifoldcf

我们使用ManifoldCF和Postgresql(9.6)来爬网我们的网站。 直到500.000个文档为止,爬网的速度都很好(大约20.000docs /小时)。 在性能下降之后,我们可以看到爬行的时间很长(非常长)。 我们怀疑postgresql重建了internallink表的索引。 可以禁止这样做吗?通过postgresql的设置?

谢谢 丹

1 个答案:

答案 0 :(得分:0)

您使用的是哪个MCF版本?尝试最新版本:2.13

大多数时候数据库会拖累性能。更好地调整PG将获得更好的结果

根据MCF指南:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html

您应该关闭PG自动抽真空,看看是否有帮助。

尝试调整时还有很多其他因素。