如何使用Rcrawler检索/抓取外部链接

时间:2019-06-01 23:34:49

标签: r web-crawler data-extraction rcrawler

我对编码和R特别是新手。我当前正在使用Rcrawler来爬网和存储所有链接,最大深度为3。但是,使用Rcrawler,系统仅识别内部链接的URL,并且似乎忽略了外部链接URL。我还利用网络分析功能来识别外部链接,但没有提供外部链接URL。

Rcrawler(网站=“ https://stackoverflow.com/questions/ask”,no_cores = 4,no_conn = 4,MaxDepth = 4,NetworkData = TRUE,NetwExtLinks = TRUE,statslinks = TRUE)

结果将生成INDEX文件和NetwEdges文件,其中INDEX文件包括所有内部链接的列表,NetwEdges文件包括所有边缘的列表。边缘包括未在我的INDEX文件中标识的节点,因为它们是外部链接。

非常感谢您的帮助!

0 个答案:

没有答案