刮刮https会在Mac上返回错误但在Windows上有效

时间:2017-06-07 20:58:51

标签: r rvest

我想把网页上的表格刮到Mac上的R:

library("rvest")
url <- "https://www.gpw.pl/wskazniki_spolek_full"
gpw <- url %>%
read_html() %>%
html_nodes(xpath='//table') %>%
html_table(fill = TRUE)
gpw



  Error: Failure when receiving data from the peer
  Error: object 'gpw' not found

当我在Windows上通过RStudio从这个网站下载表格或通过Excel(数据选项卡 - &gt;获取外部数据 - >来自Web)时,它可以正常工作。

修改 我在访问此特定网页时遇到问题。似乎根本就没有联系。 当我在不同的网页上尝试相同的代码时,它可以工作。 例如:

url <- "https://pl.wikipedia.org/wiki/Mapa"
Map <- url %>%
  read_html()
Map
{xml_document}
<html class="client-nojs" lang="pl" dir="ltr">
[1] <head>\n  <meta charset="UTF-8"/>\n  <title>Mapa – Wikipedia, wolna encyklopedia</title>\n  <s ...
[2] <body class="mediawiki ltr sitedir-ltr mw-hide-empty-elt ns-0 ns-subject page-Mapa rootpage-Ma ...

我正在寻找类似的案例,但R没有答案(只有一些用于php curl)。

1 个答案:

答案 0 :(得分:0)

以下代码正常运行,但如果您想要一张干净的桌子,则必须进行一些清洁:

library("rvest")
url <- "https://www.gpw.pl/wskazniki_spolek_full"
population <- url %>%
  read_html() %>%
  html_nodes(xpath='//table') %>%
  html_table(fill = TRUE)

population