运行R 3.2.0,R Studio 0.99.441,Windows 7 32位,XML包3.98-1.2
我正在尝试使用XML包和xmlTreeParse从下面的站点读取XML文件,但一直收到错误。
https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml
> fileURL <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
> doc <- xmlTreeParse(fileURL, useInternal = TRUE)
Error: XML content does not seem to be XML: 'https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml'
我还尝试使用xmlTreeParse
下载download.file()download.file(fileURL, destfile = "data.xml")
doc <- xmlTreeParse("data.xml", useInternalNodes = TRUE)
当我这样做时,没有立即错误,但是varibale&#39; doc&#39;没有结构,我不确定如何从这一点开始阅读。
答案 0 :(得分:1)
从s
移除https
:
fileURL <- "http://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
fileURL <- sub('https', 'http', fileURL)
doc <- htmlParse(fileURL)
答案 1 :(得分:0)
这对我有用:
library(XML)
fileURL <- "https://www.w3schools.com/xml/simple.xml"
download.file(fileURL, destfile = "data.xml", method = "curl")
doc <- xmlTreeParse("data.xml", useInternalNodes = TRUE)
rootNode <- xmlRoot(doc)