我正在使用RCrawler抓取约300个网站。网站的规模是多种多样的:有些很小(大约几十个页面),有些很大(每个域1000个页面)。抓取后者非常耗时,并且-为了我的研究目的-当我已经有几百页时,增加更多页面的附加值就会减少。
所以:如果收集到x页的页面,有没有办法停止爬网?
我知道我可以使用MaxDepth限制爬网,但是即使在MaxDepth = 2时,这仍然是一个问题。 MaxDepth = 1不适合我的研究。另外,我希望将MaxDepth保持在较高的水平,这样较小的网站确实会完全爬行。
非常感谢!
答案 0 :(得分:0)
如何为FUNPageFilter
函数的Rcrawler
参数实现自定义函数?自定义函数检查DIR
中的文件数,如果文件太多,则返回FALSE。