应用错误收集

RCrawler：如何限制RCrawler收集的页面数？（不是抓取深度）

时间：2019-12-10 13:56:31

标签： r web-scraping rcrawler

我正在使用RCrawler抓取约300个网站。网站的规模是多种多样的：有些很小（大约几十个页面），有些很大（每个域1000个页面）。抓取后者非常耗时，并且-为了我的研究目的-当我已经有几百页时，增加更多页面的附加值就会减少。

所以：如果收集到x页的页面，有没有办法停止爬网？

我知道我可以使用MaxDepth限制爬网，但是即使在MaxDepth = 2时，这仍然是一个问题。 MaxDepth = 1不适合我的研究。另外，我希望将MaxDepth保持在较高的水平，这样较小的网站确实会完全爬行。

非常感谢！

1 个答案:

答案 0 :(得分：0)

如何为FUNPageFilter函数的Rcrawler参数实现自定义函数？自定义函数检查DIR中的文件数，如果文件太多，则返回FALSE。