RCrawler:如何限制RCrawler收集的页面数? (不是抓取深度)

时间:2019-12-10 13:56:31

标签: r web-scraping rcrawler

我正在使用RCrawler抓取约300个网站。网站的规模是多种多样的:有些很小(大约几十个页面),有些很大(每个域1000个页面)。抓取后者非常耗时,并且-为了我的研究目的-当我已经有几百页时,增加更多页面的附加值就会​​减少。

所以:如果收集到x页的页面,有没有办法停止爬网?

我知道我可以使用MaxDepth限制爬网,但是即使在MaxDepth = 2时,这仍然是一个问题。 MaxDepth = 1不适合我的研究。另外,我希望将MaxDepth保持在较高的水平,这样较小的网站确实会完全爬行。

非常感谢!

1 个答案:

答案 0 :(得分:0)

如何为FUNPageFilter函数的Rcrawler参数实现自定义函数?自定义函数检查DIR中的文件数,如果文件太多,则返回FALSE。