Question

我正在尝试像这样抓取一个网页http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html，并使用以下代码，我收到一条错误，提示HTML不合适：

library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)

我看过this帖子，演示了如何使用Internet Explorer和rcom包来修复格式不正确的HTML，然后将其提供给解析器。但是，相关HTML会在http://validator.w3.org传递验证。

还有哪些方法可以处理与HTML包相关的HTML解析相关错误？

Answer 1

给它一个旋转，看看它是否符合您的要求：

library(RCurl)
library(XML)
url   <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
doc   <- htmlTreeParse(url, useInternalNodes=TRUE)

我还建议您查看这些资源：

使用XML包处理R中的HTML Web抓取错误

1 个答案: