一个特定网站在R的curl中出现网页抓取错误

时间:2019-04-04 12:35:18

标签: r web-scraping rvest httr

我正在尝试使用rvest软件包抓取网站。不管我尝试过什么,启动html_session还是有问题。

library(rvest)
library(httr)

session <- html_session("https://www.gpw.pl/spolki")

session <- httr::GET("https://www.gpw.pl/spolki")

对于这两个我都收到的东西:

Error in curl::curl_fetch_memory(url, handle = handle) : 
 Failure when receiving data from the peer

那是为什么?这个网站是否试图阻止我抓取?

编辑:我无法在他们的网站上找到任何明确表明他们不允许抓取的内容。是否有其他方法可以让我检查此网站上是否允许使用蜘蛛?

如果有人对我该如何处理这个问题有任何有趣的想法,请不要犹豫,在下面的问题中分享给他们:)

0 个答案:

没有答案