我正在尝试像这样抓取一个网页http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html,并使用以下代码,我收到一条错误,提示HTML不合适:
library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)
我看过this帖子,演示了如何使用Internet Explorer和rcom
包来修复格式不正确的HTML,然后将其提供给解析器。但是,相关HTML会在http://validator.w3.org传递验证。
还有哪些方法可以处理与HTML包相关的HTML解析相关错误?
答案 0 :(得分:2)
给它一个旋转,看看它是否符合您的要求:
library(RCurl)
library(XML)
url <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
doc <- htmlTreeParse(url, useInternalNodes=TRUE)
我还建议您查看这些资源: