r - 有没有一种方法可以在不下载所有HTML的情况下运行Rcrawler？ - Thinbug

有没有一种方法可以在不下载所有HTML的情况下运行Rcrawler？

时间：2019-05-27 13:09:37

标签： r web-crawler rcrawler

我在一个非常大的网站上运行Rcrawler，因此需要很长时间（默认页面深度为3天以上）。有没有一种方法可以不下载所有HTML，从而使过程更快？

我只需要存储在INDEX中的URL。还是有人可以推荐另一种方法来提高Rcrawler的运行速度？

我曾尝试以较小的页面深度（5）运行它，但它仍然需要花费很多时间。

1 个答案:

答案 0 :(得分：0)

我正在处理同一问题。在某些情况下，根据消息来源，我什至在深度1处奔跑。

最好，贾努斯