有没有一种方法可以在不下载所有HTML的情况下运行Rcrawler?

时间:2019-05-27 13:09:37

标签: r web-crawler rcrawler

我在一个非常大的网站上运行Rcrawler,因此需要很长时间(默认页面深度为3天以上)。有没有一种方法可以不下载所有HTML,从而使过程更快?

我只需要存储在INDEX中的URL。 还是有人可以推荐另一种方法来提高Rcrawler的运行速度?

我曾尝试以较小的页面深度(5)运行它,但它仍然需要花费很多时间。

1 个答案:

答案 0 :(得分:0)

我正在处理同一问题。在某些情况下,根据消息来源,我什至在深度1处奔跑。

最好, 贾努斯

相关问题