R web从页面中抓取多个表格

时间:2012-03-14 18:01:21

标签: r

我正在尝试网页抓取页面上的5个表格:www.lme.com/copper.asp

我可以在整个页面上进行webscape,但是我在将表格划分为正确的数据帧而没有HTML格式化时遇到了问题。

library(XML)
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE)

我很感激你的帮助。

1 个答案:

答案 0 :(得分:1)

这通常需要reqex的东西。对不起,这是刮刮艺术的一部分。我最喜欢的两个与正则表达式相关的抓取/清理功能是gsubstrsplit,如下所示:

gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

如果您希望数据为数字,则需要删除数字中的逗号。

编辑:我还建议您查看我的朋友Bryan在解析HTML数据时所做的一些工作(LINK)