抓取工具不只抓取几页,抓取其他所有内容

时间:2019-01-29 04:33:16

标签: web-crawler stormcrawler

我在我的应用中安装了搜寻器设置,效果很好,但仅使用几个网址就出现了问题。它不会抓取这些页面,我看到的这两个页面与其他被抓取页面之间的唯一区别是,这些页面上有很多子链接,大约为800-1000。

请提供我可以更新的任何设置以查看它们是否会被抓取。

我正在使用与ES 5.6.3兼容的搜寻器。

谢谢。

1 个答案:

答案 0 :(得分:0)

检查配置 http.content.limit 的值,该值在原型中设置为 65536 。这可以解释为什么您在较大的文档上缺少出站链接。将其设置为-1可以确保处理整个文档,而不管其大小如何。