标签: r web-crawler rcrawler
我在一个非常大的网站上运行Rcrawler,因此需要很长时间(默认页面深度为3天以上)。有没有一种方法可以不下载所有HTML,从而使过程更快?
我只需要存储在INDEX中的URL。 还是有人可以推荐另一种方法来提高Rcrawler的运行速度?
我曾尝试以较小的页面深度(5)运行它,但它仍然需要花费很多时间。
答案 0 :(得分:0)
我正在处理同一问题。在某些情况下,根据消息来源,我什至在深度1处奔跑。
最好, 贾努斯