使用xml2解析小网页会引发XML_PARSE_HUGE错误

时间:2015-11-20 04:39:47

标签: r xml-parsing web-scraping libxml2

最近R中我的rNOMADS包的用户开始出现意外错误:

Error: Excessive depth in document: 256 use XML_PARSE_HUGE option [1]

我们跟踪此命令的问题:

html.tmp <- xml2::read_html("http://nomads.ncep.noaa.gov/cgi-bin/filter_rap.pl?dir=%2Frap.20151120")

在关注链接后,似乎要解析的网页不比其他工作正常的网页大,并且远小于应该需要XML_PARSE_HUGE选项的1兆字节限制。此外,

xml2::read_html

实际上没有XML_PARSE_HUGE选项。 here描述的唯一其他潜在解决方案不适用于官方R包。

导致此错误的原因是什么,是否可以在不使用官方CRAN存储库之外的解决方案的情况下解决此问题?

1 个答案:

答案 0 :(得分:0)

到目前为止,我能做的最好的事情是安装强制XML_PARSE_HUGE的shabbychef分叉版xml2。您可以通过

安装此版本的xml2
library(drat)
drat:::add("shabbychef")
install.packages('xml2')

目前,如果您在rNOMADS中遇到XML_PARSE_HUGE错误,请使用此工作。