使用XML包处理R中的HTML Web抓取错误

时间:2012-07-28 23:54:01

标签: r xml-parsing web-scraping

我正在尝试像这样抓取一个网页http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html,并使用以下代码,我收到一条错误,提示HTML不合适:

library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)

我看过this帖子,演示了如何使用Internet Explorer和rcom包来修复格式不正确的HTML,然后将其提供给解析器。但是,相关HTML会在http://validator.w3.org传递验证。

还有哪些方法可以处理与HTML包相关的HTML解析相关错误?

1 个答案:

答案 0 :(得分:2)

给它一个旋转,看看它是否符合您的要求:

library(RCurl)
library(XML)
url   <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
doc   <- htmlTreeParse(url, useInternalNodes=TRUE)

我还建议您查看这些资源:

  1. talkstats.com thread on web scraping (great beginner examples)
  2. w3schools.com site on html stuff (very helpful)