用表格中的rvest刮取数据

时间:2017-10-10 15:35:03

标签: html r rvest

我想从此链接中抓取数据:http://dati.acs.beniculturali.it/CPC/CPC.detail.html?A00001

library(rvest)
library(dplyr)

url <- 'http://dati.acs.beniculturali.it/CPC/CPC.detail.html?A00001'
read_html(url) %>%
  html_node(xpath = '//*[@id="dataContainer"]/div[1]') %>%
  html_text()

据我了解,问题似乎是数据不是表格格式 - 然后我可以使用html_table()来提取我需要的内容。查看HTML结构,div嵌套在表单中包含的一系列div中。我也尝试过:

read_html(url) %>% 
  html_node('form') %>%
  html_text()

但我只得到一系列的\ n。我错过了什么?

0 个答案:

没有答案