我正在尝试使用rvest in R
从网站上删除表格,但是出现错误:
“ open.connection(x,“ rb”)中的错误:HTTP错误404“
我该如何解决问题?
我已经尝试了一些选项,但是没有一个起作用。我不知道我在做什么错。我想知道我的编码方式是否错误。这似乎很简单,但我无法解决。
options(stringsAsFactors = FALSE)
url<- "https://www.tutiempo.net/clima/06-2018/ws-830950.html"
tbl.names <- data.frame(
"Temperatura Media" = character(0),
"Temperatura Máxima" = character(0),
"Temperatura Mínima" = character(0),
"SLP" = character(0),
"H" = character(0),"PP" = character(0),
"VV" = character(0),
"V" = character(0),"VM" = character(0),
"VG" = character(0),
"RA" = character(0),"SN" = character(0),
"TS" = character(0),
"FG" = character(0) )
for (i in 1:31) {
url <- paste0(url, i)
tbl.page <- url %>%
read_html() %>%
html_nodes(xpath='//*[@id="ColumnaIzquierda"]/div/div[4]') %>%
html_table()
names(tbl.page[[1]]) <- names(tbl.names)
tbl.names <- bind_rows(tbl.names, tbl.page[[1]])
}
我希望重新获得网站上相同的表,但文件为.xls
或.csv
,因此我可以对其进行操作。
出现此错误
“ open.connection(x,“ rb”)中的错误:HTTP错误404”。
尽管,我不知道编码是否正确。
答案 0 :(得分:1)
我认为您可以使用rvest
和tidyverse
来做到这一点。
第一件事是使用read_html()
library(tidyverse)
library(rvest)
url ="https://www.tutiempo.net/clima/06-2018/ws-830950.html"
data = read_html(url)
然后,您必须用您感兴趣的信息来标识节点。对于您使用html_nodes("table")
的情况,您可以看到该网站中有5个HTML表,而有趣的信息位于第4个节点中:>
data %>%
html_nodes("table")
{xml_nodeset (5)}
[1] <table cellpadding="0" cellspacing="0"><tbody><tr>\n<td class="home"><a href="https://www.tutiempo.net/">El tiempo</a></td>\n<td><a href=" ...
[2] <table cellpadding="0" cellspacing="0"><tr>\n<td><a href="/clima/ws-830950.html">Clima</a></td>\n\t\t\t\t\t<td><a href="/clima/2018/ws-830 ...
[3] <table cellpadding="0" cellspacing="0"><tr>\n<td><span class="social facebook iw-facebook" title="Compartir en Facebook"></span></td>\n<td ...
[4] <table cellpadding="0" class="medias mensuales numspan" style="width:100%;" cellspacing="0">\n<tr>\n<th>Día</th>\n<th><abbr class="tooltip ...
[5] <table cellpadding="0" cellspacing="0" class="info">\n<tr>\n<td>T</td>\n<td>Temperatura media (°C)</td>\n</tr>\n<tr>\n<td>TM</td>\n<td>Tem ...
确定后,您只需检索该节点:
tab_temp = data %>%
html_nodes("table") %>%
.[4] %>%
html_table(fill = TRUE) %>%
as.data.frame()
glimpse(tab_temp)
Observations: 32
Variables: 15
$ Día <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", "14", "15", "16", "17", "18", "19", "20", "21", "22", "23", "…
$ T <chr> "26.1", "25.1", "26.7", "", "", "", "25.7", "24.7", "26.5", "", "", "", "27.2", "26.1", "26.6", "", "", "", "25.2", "26.6", "26.3"…
$ TM <chr> "28", "28", "29", "", "", "", "28", "28", "29", "", "", "", "29", "27", "29", "", "", "", "29", "29", "29", "", "", "", "29", "27"…
$ Tm <chr> "24", "23", "24", "", "", "", "23", "23", "23", "", "", "", "23", "23", "23", "", "", "", "23", "25", "23", "", "", "", "22", "20"…
$ SLP <chr> "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "",…
$ H <chr> "74", "89", "82", "", "", "", "85", "90", "82", "", "", "", "68", "74", "70", "", "", "", "77", "68", "70", "", "", "", "68", "83"…
$ PP <chr> "-", "-", "-", "", "", "", "-", "-", "0", "", "", "", "0", "-", "-", "", "", "", "-", "0", "0", "", "", "", "-", "-", "-", "", "",…
$ VV <chr> "9.7", "8.9", "10", "", "", "", "9", "8.7", "10", "", "", "", "10", "10", "9.8", "", "", "", "9.7", "10", "10", "", "", "", "9.7",…
$ V <chr> "11.3", "9.1", "13.7", "", "", "", "8.5", "7.2", "10.6", "", "", "", "19.8", "15.9", "18.1", "", "", "", "16.7", "19.3", "18", "",…
$ VM <chr> "18.3", "33.5", "24.1", "", "", "", "22.2", "16.5", "18.3", "", "", "", "29.4", "31.7", "29.4", "", "", "", "29.4", "24.1", "25.9"…
$ VG <chr> "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "", "", "-", "-", "-", "", "",…
$ RA <chr> "o", "o", "o", "o", "", "o", "o", "o", "", "", "", "", "", "o", "o", "o", "o", "o", "o", "", "", "o", "", "", "o", "o", "o", "", "…
$ SN <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "Medias y …
$ TS <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "Medias y …
$ FG <chr> "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "Medias y …
然后,如果需要使用tab_temp
或.csv
,则可以将数据框write.csv()
保存为rio::export()
。
答案 1 :(得分:1)
我将采用与其他答案类似的方法,但由于该表可以由类唯一标识,并且类是第二快的CSS选择器方法,因此我将检索单个节点(表),并通过在课程上匹配
library(rvest)
url ="https://www.tutiempo.net/clima/06-2018/ws-830950.html"
df = read_html(url) %>% html_node(".mensuales") %>% html_table(fill = TRUE) %>% as.data.frame()