无法从https://站点读取XML文件

时间:2015-06-08 16:11:32

标签: xml r https

运行R 3.2.0,R Studio 0.99.441,Windows 7 32位,XML包3.98-1.2

我正在尝试使用XML包和xmlTreeParse从下面的站点读取XML文件,但一直收到错误。

https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml

> fileURL <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
> doc <- xmlTreeParse(fileURL, useInternal = TRUE)
Error: XML content does not seem to be XML: 'https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml' 

我还尝试使用xmlTreeParse

下载download.file()
download.file(fileURL, destfile = "data.xml")
doc <- xmlTreeParse("data.xml", useInternalNodes = TRUE)

当我这样做时,没有立即错误,但是varibale&#39; doc&#39;没有结构,我不确定如何从这一点开始阅读。

2 个答案:

答案 0 :(得分:1)

s移除https

fileURL <- "http://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
fileURL <- sub('https', 'http', fileURL)
doc <- htmlParse(fileURL)

答案 1 :(得分:0)

这对我有用:

library(XML)
fileURL <- "https://www.w3schools.com/xml/simple.xml"
download.file(fileURL, destfile = "data.xml", method = "curl")
doc <- xmlTreeParse("data.xml", useInternalNodes = TRUE)
rootNode <- xmlRoot(doc)