我想把网页上的表格刮到Mac上的R:
library("rvest")
url <- "https://www.gpw.pl/wskazniki_spolek_full"
gpw <- url %>%
read_html() %>%
html_nodes(xpath='//table') %>%
html_table(fill = TRUE)
gpw
Error: Failure when receiving data from the peer
Error: object 'gpw' not found
当我在Windows上通过RStudio从这个网站下载表格或通过Excel(数据选项卡 - &gt;获取外部数据 - >来自Web)时,它可以正常工作。
修改 我在访问此特定网页时遇到问题。似乎根本就没有联系。 当我在不同的网页上尝试相同的代码时,它可以工作。 例如:
url <- "https://pl.wikipedia.org/wiki/Mapa"
Map <- url %>%
read_html()
Map
{xml_document}
<html class="client-nojs" lang="pl" dir="ltr">
[1] <head>\n <meta charset="UTF-8"/>\n <title>Mapa – Wikipedia, wolna encyklopedia</title>\n <s ...
[2] <body class="mediawiki ltr sitedir-ltr mw-hide-empty-elt ns-0 ns-subject page-Mapa rootpage-Ma ...
我正在寻找类似的案例,但R没有答案(只有一些用于php curl)。
答案 0 :(得分:0)
以下代码正常运行,但如果您想要一张干净的桌子,则必须进行一些清洁:
library("rvest")
url <- "https://www.gpw.pl/wskazniki_spolek_full"
population <- url %>%
read_html() %>%
html_nodes(xpath='//table') %>%
html_table(fill = TRUE)
population