我正在尝试使用rvest软件包抓取网站。不管我尝试过什么,启动html_session还是有问题。
library(rvest)
library(httr)
session <- html_session("https://www.gpw.pl/spolki")
session <- httr::GET("https://www.gpw.pl/spolki")
对于这两个我都收到的东西:
Error in curl::curl_fetch_memory(url, handle = handle) :
Failure when receiving data from the peer
那是为什么?这个网站是否试图阻止我抓取?
编辑:我无法在他们的网站上找到任何明确表明他们不允许抓取的内容。是否有其他方法可以让我检查此网站上是否允许使用蜘蛛?
如果有人对我该如何处理这个问题有任何有趣的想法,请不要犹豫,在下面的问题中分享给他们:)