我想从此链接中抓取数据:http://dati.acs.beniculturali.it/CPC/CPC.detail.html?A00001
library(rvest)
library(dplyr)
url <- 'http://dati.acs.beniculturali.it/CPC/CPC.detail.html?A00001'
read_html(url) %>%
html_node(xpath = '//*[@id="dataContainer"]/div[1]') %>%
html_text()
据我了解,问题似乎是数据不是表格格式 - 然后我可以使用html_table()
来提取我需要的内容。查看HTML结构,div嵌套在表单中包含的一系列div中。我也尝试过:
read_html(url) %>%
html_node('form') %>%
html_text()
但我只得到一系列的\ n。我错过了什么?